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本 书 完整 而 详细 地 介绍 了 TCP/IP 协 议 是 如 何 实 现 的 。 书 中 给 出 了 约 500 个 图 例 ，15 000 
行 实际 操作 的 C 代 码 ， 采 用 举例 教学 的 方法 帮助 你 掌握 TCP/IP 实 现 。 本 书 不 仅 说 明了 播 口 
API 和 协议 族 的 关系 以 及 主机 实现 与 路 由 器 实现 的 差别 。 还 介绍 了 4.4BSD-Lite 版 的 新 的 特 
点 ， 如 多 播 、 长 肥 管 道 支持 、 窗 口 缩放 、 时 间 蕉 选项 以 及 其 他 主题 等 等 。 读 者 阅读 本 书 时 ， 
应 当 具 备 卷 1 中 阐述 的 关于 TCP/IP 的 基本 知识 。 

本 书 适用 于 希望 理解 TCP/TP 协 议 如 何 实现 的 人 ， 包 括 编写 网 络 应 用 程序 的 程序 员 以 
及 利用 TCP/IP 维 护 计 算 机 网 络 的 系统 管理 员 。 
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译 者 F 


我 们 愿意 向 广大 的 读者 推荐 W. Richard Stevens 关 于 TCP/IP 的 经 典 著作 ( 共 3 卷 ) 的 中 译本 。 
本 书 是 其 中 的 第 2 卷 : 《TCP/IP 详 解 卷 2: 实现 》。 

大 家 知道 ，TCP/IP 已 成 为 计算 机 网 络 的 事实 上 的 标准 。 在 关于 TCP/IP 的 论著 中 ， 最 有 影 
响 的 就 是 两 部 著作 。 一 部 是 Douglas E. Comer 写 的 《用 TCP/IP 进 行 网 际 互 连 》， 一 套 共 3 卷 (中 
译本 已 由 电子 工业 出 版 社 于 1998 年 出 版 )， 而 另 一 部 就 是 Stevens 写 的 这 3 卷 书 。 这 两 套 巨著 都 
很 有 名 ， 各 有 其 特点 。 无 论 是 从 事 计 算 机 网 络 教学 的 教师 还 是 进行 科研 的 技术 人 员 ， 这 两 套 
书 都 应 当 是 必 读 的 。 

本 书 的 特点 是 内 容 丰 富 ， 概 念 清楚 且 准 确 ， 讲 解 详 细 ， 例 子 很 多 。 作 者 在 书 中 举 出 的 所 
有 例子 均 在 作者 安装 的 计算 机 网 络 上 通过 实际 验证 。 各 章 都 留 有 一 定数 量 的 习题 。 在 附录 A 作 
者 对 部 分 习题 给 出 了 解答 。 在 本 书 的 最 后 ， 作 者 给 出 了 许多 经 典 的 参考 文献 ， 并 一 一 写 出 了 
评论 。 

第 2 卷 是 第 1 卷 的 继续 深入 。 读 者 在 学 习 这 一 卷 时 ， 应 当先 具备 第 1 卷 所 阐述 的 关于 TCP/EP 
的 基本 知识 。 本 卷 的 特点 是 使 用 大 量 的 源 代 码 来 讲述 TCP/IP 协 议 族 中 的 各 协议 是 怎样 实现 的 。 
这 些 内 容 对 于 编写 TCP/IP 网 络 应 用 程序 的 程序 员 和 人 负责 维护 基于 TCP/IP 协 议 的 计算 机 网 络 的 
系统 管理 员 来 说 ， 应 当 是 必 读 的 。 

参加 本 书 翻译 的 有 : 谢 钩 (序言 和 第 1 章 ~ 第 7 章 )， 莫 慧 (第 8 章 ~ 第 14 章 ， 第 22 章 ~ 第 23 章 )， 
吴 礼 发 (第 15~ 第 17 章 )， 端 义 峰 (第 18 章 ~ 第 19 章 )， 悄 光辉 (第 20 章 ~ 第 21 章 ) 和 陆 轨 莹 (第 寻 章 ~ 
第 32 章 以 及 全 部 附录 )。 全 书 由 谢 希 仁 教授 审 校 。 

限于 水 平 ， 翻 译 中 不 妥 或 错误 之 处 在 所 难免 ， 敬 请 广大 读者 批评 指正 。 


译 者 
于 解放 军 理工 大 学 ， 南 京 
2000 年 2 月 


译 、 校 者 介绍 


谢 希 仁 ， 中 国人 民 解 放 军 理工 大 学 (南京 ) 计 算 机 系 教授 ， 全 军 网 络 技 术 研 
究 中 心 主 任 ， 博 士 研究 生 导 师 ，1952 年 毕业 于 清华 大 学 电机 系 电信 专业 。 所 编 
写 的 《计算 机 网 络 》 于 1992 年 获 全 国 优秀 教材 奖 。1999 年 再 版 的 《计算 机 网 络 》 
第 ?版 为 普通 高 等 教育 “ 九 五 ”国家 级 重点 教材 。 近 来 还 主持 翻译 了 Comer 写 的 
《ICP/PP 网 际 互 联 》 计 算 机 网 络 经 典 教 材 一 套 三 卷 本 (电子 工业 出 版 社 1998 年 出 
版 )，Harnedy 写 的 《简单 网 络 管理 协议 教程 》( 电 子 工业 出 版 社 1999 年 出 版 )。 


陆 雪 莹 ， 女 ，1973 年 1 月 出 生 。1994 年 7 月 毕业 于 南京 通信 工程 学 院 无 线 通 
信 专 业 ， 获 工学 学 士 学 位 。1997 年 2 月 于 南京 通信 工程 学 院 计 算 机 软件 专业 毕 
业 ， 并 获 硕士 学 位 。1997 年 9 月 至 今 ， 任 南京 通信 工程 学 院 计算 机 教研 室 教 员 ， 
同时 于 解放 军 理工 大 学 攻读 军事 通信 学 博士 学 位 ， 讲 师 职 称 ， 主 要 研究 方向 : 
智能 化 网 络 管理 ， 计 算 机 网 络 分 布 式 处 理 。 曾 参加 国家 “863” 项 目 ， 并 参加 
编写 专业 著作 2 本 ， 翻 译 专业 著作 3 本 ， 在 各 级 学 术 刊 物 上 发 表 论 文 5 篇 。 


将 慧 ， 女 ，1973 年 2 月 出 生 。1995 年 毕业 于 南京 通信 工程 学 院 计 算 机 系 ， 
获 计算 机 应 用 专业 工学 学 士 学 位 。1998 年 于 南京 通信 工程 学 院 计算 机 软件 专业 
毕业 ， 并 获 硕士 学 位 。1998 年 9 月 至 今 ， 于 解放 军 理工 大 学 攻读 博士 学 位 。 自 
1995 年 以 来 ， 在 国内 外 重要 学 术 刊 物 和 会 议 上 发 表 8 篇 论文 ， 其 中 2 篇 论文 被 
IEEE 国 际会 议 录 用 。 已 出 版 3 本 有 关 网 络 的 译作 。 目 前 从 事 软 件 需求 工 程 、 网 
络 协 议 验 证 形式 化 方法 以 及 函数 式 语言 等 方面 的 研究 。 





Dll 
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简介 


本 书 描述 并 给 出 了 TCP/IP 实 现 引用 的 源 代 码 : 加 利 福 尼 亚 大 学 伯克利 分 校 的 计算 机 系统 研 
究 组 (CSRG) 的 实现 。 历 史上 ， 它 曾 以 4.x BSD 系 统 ( 伯 克利 软件 发 行 ) 发 布 。 这 个 实现 第 一 次 发 
布 是 在 1982 年 ， 经 过 了 很 多 重大 的 改变 和 改进 ， 并 且 有 很 多 引入 到 其 他 Unix 和 非 Unix 系 统 中 。 
这 不 是 一 个 没有 多 大 意义 的 实现 ， 而 是 天 天 在 世界 上 成 千 上 万 个 系统 上 运行 的 TCP/IP 实 现 的 基 
础 。 这 个 实现 还 提供 路 由 功能 ， 显 示 在 一 个 主机 和 一 个 路 由 器 的 TCP/IP 实 现 间 的 区 别 。 

我 们 描述 这 个 实现 并 给 出 TCP/IP 内 核实 现 的 完整 源 代码 ， 大 约 15 000 行 C 代 码 。 在 本 文中 
描述 的 是 4.4BSD-Lite 版 本 。 这 个 代码 在 1994 年 4 月 公开 ， 包 含 很 多 增强 的 联网 部 分 ， 它 们 被 
添加 到 1988 年 的 4.3BSD Tahoe 版 、1990 年 的 4.3BSD Reno 版 和 1993 年 的 4.4BSD 版 (附录 B 人 介绍 
了 如 何 获 得 这 些 源 代码 )。4.4BSD 版 提供 最 新 的 TCP/IP 特 征 ， 如 多 播 和 长 肥 管道 支持 (用 于 高 
宽带 、 长 时 延 路 径 )。 图 1-1 提 供 了 伯克利 联网 代码 的 各 种 版 本 的 其 他 细节 。 

本 书 适用 于 希望 理解 TCP/IP 协 议 是 如 何 实现 的 人 : 编写 网 络 应 用 的 程序 员 ， 负 责 利 用 
TCP/IP 维 护 计 算 机 系统 和 网 络 的 系统 管理 员 ， 以 及 任何 想 理解 大 块 的 重要 代码 是 如 何 满足 一 
个 真实 操作 系统 的 程序 员 。 


本 书 的 组 织 结构 


下 图 显示 的 是 所 涉及 的 各 种 协议 和 子 系统 。 每 个 方 框 旁 的 斜体 数字 指出 方 框 中 的 论题 在 
哪 一 章 讨 论 。 


15, 16, 


Chap. 2 7 17 22 


24, 25, 26 
23 27, 28, 29, 30 





VI 


我 们 采用 自 底 向 上 的 方法 来 讨论 TCP/P 协 议 组 ， 从 数据 链 路 层 开始 ， 然 后 是 网 络 层 (IP、 
ICMP、IGMP、IP 路 由 选择 和 多 播 路 由 选择 )， 接 下 来 是 播 口 层 ， 最 后 以 运输 层 (UDP、TCP 和 
原始 IP) 结 束 。 


预期 的 读者 


本 书 假设 读者 对 TCP/IP 是 如 何 工作 的 有 一 个 基本 的 理解 。 不 熟悉 TCP/IP 的 读者 应 该 参考 
本 套 书 中 的 第 1 卷 ，[Stevens 1994]， 那 本 书 对 TCP/IP 协 议 组 进行 了 全 面 的 描述 。 在 本 书 中 对 
第 1 卷 的 引用 均 为 卷 1。 本 书 还 假设 读者 对 操作 系统 原理 有 一 个 基本 的 理解 。 

我 们 用 一 个 数据 结构 方法 来 描述 这 个 协议 的 实现 。 即 ， 除 了 给 出 源 代码 外 ， 每 章 还 包括 
源 代码 使 用 和 维护 的 数据 结构 的 图 和 说 明 。 我 们 显示 了 这 些 数据 结构 是 如 何 适 用 于 TCP/IP 和 
内 核 使 用 的 其 他 数据 结构 的 。 通 篇 使 用 大 量 的 图 表 一 一 超过 250 个 图 表 。 

这 种 数据 结构 方法 人 允许 读者 采用 各 种 方式 使 用 本 书 。 对 所 有 实现 细节 感 兴趣 的 读者 可 以 
从 头 到 尾 阅 读 全 书 ， 看 完 所 有 的 源 代 码 。 可 能 只 想 理解 协议 是 如 何 实现 的 其 他 读者 ， 可 通过 
理解 所 有 数据 结构 并 阅读 所 有 文字 可 以 达到 目的 ， 而 不 必 看 完 所 有 的 源 代码 。 

我 们 预料 很 多 读者 会 对 书 中 的 特定 部 分 感 兴 趣 并 且 想 直接 进入 那 一 章 。 .因此 ， 通 篇 提供 
了 很 多 向 前 或 向 后 的 引用 ， 沿 着 完整 的 索引 ， 人 允许 单独 学 习 某 一 章 。 在 各 章 的 结尾 都 提供 了 
习题 ， 并 在 附录 A 中 给 出 大 多 数 习题 的 答案 作为 自学 的 参考 ， 使 本 书 能 发 挥 最 大 的 作用 。 


源 代码 版 权 


本 书 中 出 现 的 所 有 代码 ， 除 了 图 1-2 和 图 8-27， 都 是 来 自 于 4.4BSD-Lite 发 行 版 。 这 个 软件 
是 公开 的 ， 可 从 很 多 地 方 获 得 (附录 B)。 
这 个 源 代码 的 所 有 部 分 都 包含 下 列 版 权 通 告 。 


~ 
* 


Copyright (c) 1982, 1986, 1988, 1990, 1993, 1994 
The Regents of the University of California. All rights reserved. 


Redistribution and use in source and binary forms, with or without 

modification, are permitted provided that the following conditions 

are met: 

1. Redistributions of source code must retain the above copyright 
notice, this list of conditions and the following disclaimer. 

2. Redistributions in binary form must reproduce the above copyright 
notice, this list of conditions and the following disclaimer in the 
documentation and/or other materials provided with the distribution. 

3. All advertising materials mentioning features or use of this software 
must display the following acknowledgement: 

This product includes software developed by the University of 
California, Berkeley and its contributors. 

4. Neither the name of the University nor the names of its contributors 
may be used to endorse or promote products derived from this software 
without specific prior written permission. 


THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ''AS IS'' AND 
ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE 
IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE 
ARE DISCLAIMED. IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE 
FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL 
DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS 


+ +» +» + +++ +++ A 0&0 0X A 0 X X * 


Vi 


* OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) 

* HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT 
* LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY 
* OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF 


* SUCH DAMAGE. 
*/ 


Gary R. Wright 


Middletown, Connecticut 
W. Richard Stevens 


Tucson, Arizona 


1994 年 11 月 


译 者 序 
Ed 
第 1 章 dHEXReee e M M M M 1 
LE 引言 eme eene 1 
12 源 代 码 表示 eem Hee 1 
12.4 将 拥塞 窗口 设置 为 ……………………… 1 
122 印刷 约定 mmm 2 
13 Hi oe lee emen nme em enim nne 2 
14 应 用 编程 接口 eee 3 
L5 程序 示例 em 4 
1.6 系统 调用 和 库 国 数 eene 6 
1.7 网 络 实 现 概述 oeeeeeereeeerereeerereren 6 
L8 描述 符 eeeeMMeM9 Mm 7 
19 mbuf 与 输出 处 理 eme H 
191 包含 插口 地 址 结构 的 mbuf e H 
1.9. 包含 数据 的 mbuaf nnnm 72 
19.3 添加 IP 和 UDP 首 部 ppp 13 
194 正和 输出 eH 14 
1.9.5 以 太 网 输出 nnnm 14 
1.9.6 UDP 输出 小 结 re 14 
1.10 输入 处 理 em HH 15 
1.10.1 以 太 网 输入 Ne 15 
L102 IPA cH 15 
1103 UDPÁgA eem 16 
1.10.4 RA eem 17 
LI 网 络 实现 概述 ( 续 ) ee 68 17 
112 中 断 级 别 与 并 发 een nnn6nn6n 18 
1.13 源 代码 组 织 Nt 20 
1.14 测试 网 络 eem 21 
L15 小 结 eem HH eee ee em 22 
£253 mbuf: 存储 器 缓存 pp 24 
21 B|g eH e ee 24 
22 代码 介绍 even 27 


224 全 局 变量 eee M ReReHnem 27 


录 


222 统计 .pp st 28 
2.2.3 内 核 统计 ee 28 
23 mbuf 的 定义 eee meme 29 
24 mbuf 结 构 eee 29 
2.5 简单 的 mbuf 安 和 国 数 本 37 
25. m_get 国 数 e 32 
2.5.20 MGETgi eee Hee 32 
253 m retry e n8 33 
2.54 mbuffl M 34 
2.6 m devgetfüm pullupiÉÉe seem 34 
2.61 m devgetiRA eese 34 
2.62 mtodflldtomZ: «m 36 


2.63 m_pullup 销 数 和 连续 的 协议 首部 …36 
2.64 m_pullup 和 IP 的 分 片 与 重组 …………37 


2.6.5 TCP 重 组 避免 调用 m_pullup…………… 39 
2.66 m_pullup 使 用 总 结 ppp 40 
2.7 mbuf 宏 和 函数 的 小 结 pp 40 
2.88 Neuy3 联 网 数据 结构 小 结 een 668 42 
2.9_m_copy 和 复 引 用 计数 ee 43 
240 其 他 选择 ee 47 
2.11 小 结 eee HH] 47 
第 3 章 接口 展 eeeMMMMMMMHMMHHHMHHMHMHHHR 49 
31 BJB eee e eee 49 
32 代码 介绍 e mm 49 
321 全 局 变量 eese 49 
322 SNMP 变 量 eene 50 
33 ifnet£jeeese mem 51 
34 ifaddrf&fg em 57 
3.5 sockaddr 结 构 a 58 
3.6 ifnet 与 ifadgr 的 专用 化 oe 59 
3.7 网 络 初始 化 概述 eeeneennmnnnná8 60 
3.8 以 太 网 初始 化 oeer 61 
39 SLIPEÉAdE Hmm 64 
3.40 环 回 初始 化 mmm 65 


3.11 if attach e M 66 
3.0 ifinitgeee e MM 72 
3.3 小 结 eH eee 73 
第 4 章 接口 : MAM eM 74 
41 引言 eee Henne 74 
42 代码 介绍 eR 75 
421 全 局 变量 eel 75 
422 统计 量 ee MM 75 
423 SNMP 变 量 MH 76 
43 DLUKBHEH eH 77 
431 leintriBBÉ- s MM 79 
432 lereadif NE ee 79 
433 _ ether_input 国 数 ee 81 
434 ether output e 84 
435 lestart 国 数 see eeen 87 
44 ioct1l 系 统 调用 ……………… M 89 
441 ifioctliANE seem 90 
442 ifconfHÉTpe se eem 9] 
443 HE eee 94 
444 通用 接口 ioct1 命 令 sen 95 
44.5 if downdfif upi e 96 
4456 以 太 网 、SLIP 和 环 回 M 97 
4S 小 结 eI Hee 98 
第 5 章 接口 : SLIP 和 环 加 een 100 
5. 引言 eee Hm 100 
52 代码 介绍 eH 100 
522. 全 局 变量 eee 100 
522 S eene 101 
53 SLIP 接 口 «eM 101 
5.3.1 SLIP 线 路 规程 : SLIPDISC …………… 101 
5.3.02 SLIP 初 始 化 : slopenfiüslinit =+- 103 
5.3.3 SLIP 输 入 处 理 : slinput cce 105 
5.4 SLIP 输 出 处 理 : sloutput …………… 109 
5.3.5 slstart Hg .PP 1H 
55.6 _ SLEP 分 组 丢失 nnn 116 
53.71 SLIPEEGEEIR ee 117 
5.5.8 slcloseBBER 68 117 
5339 sltioctli/! ee 118 


54 环 回 接口 eee 119 


5.5 小 结 oo 121 
第 6 章 IPAE eeeeeeeeeererreereeeerenereeeen 123 
6.1 引言 eee He Ime 123 
6.1.1 IP 地 址 nM 123 
6.1.2 下 地 址 的 印刷 规定 nnne 123 
6.1.3 主机 和 路 由 器 een 124 
62 代码 介绍 ee 125 
63 接口 和 地 址 小 结 eem 125 
6.4 sockaddr inggh eM 126 
65 inp_ifadGr 结 构 ee 127 
6.6 HEhBUR enne 128 
661 ifioct1 国 数 PN 730 
6.6.2 in_contrel 畏 数 PEPPER 130 
6.6.3 前 提 条 件 : SIOCSIFADDR、 
SIOCSIFNETMASK 和 
SIOCSIFDSTADDR-- eH 132 
6.6.4 地 址 指派 : SIOCSIFADDR ……………. 133 
6.6.5 in_ifinit 国 数 enn 133 


6.6.6 网 络 掩 码 指派 : SIOCSIFNETMASK.-.136 
6.6.7 目的 地 址 指派 : SIOCSIFDSTADDR…137 


668 获取 接口 信息 pp 137 
669 &AHBEDEATAPHABE ereere 138 
6.6.10 附加 于 地 址 : SIOCAIFADDR ……… 139 
6.6.11 删除 下 地 址 : SIOCDIFADDR ………… 140 
67 接口 ioct1 处 理 «ee 141 
67.1 leioctliRA& eH 141 
672 slioctlEO pp 142 
6.7.3 loioctlERAÉ ee MM 143 
6.8 Internet k Hg nnnm 144 
69 ifnetSt HER een 144 
610 小 结 eM MM MH 145 
第 7 章 域 和 协议 es 146 
7A B| eee 146 
72 代码 介绍 eMe 146 
721 全 局 变量 eee 147 
722 统计 量 cH pee 147 
73 domain£&W]sse eH 147 
7.4 protosw 结 构 a 148 
7.5 了 PP 的 domain 和 protosw 结 构 …………… 150 


X 


7.6 pffindproto 和 pffindtype 国 数 …… 155 
7.7 pfctlinput 国 数 see senten 157 
78 下 初始 化 eM 157 
7.81 Intemet 传 输 分 用 pp 157 
7.82 ip_init 国 数 66m 158 
79 sysctl RAA e nn8nnnnnnen 159 
740 JE eH mH 161 
第 8 章 IP: 网 际 协议 e.eeeeeeee 162 
8.1 B|B eee emen een 162 
82 代码 介绍 ee 163 
824 全 局 变量 Hem 163 
822 ib E eee 163 
8.2.3 SNMP 变 量 e e M 164 
83 IPAMB eee emm 165 
84 输入 处 理 ，ipintr 函 数 …………………… 167 
8.4.1 ipintr 概 观 on 167 
842 验证 ee 168 
8.4.3 转发 或 不 转发 pp 171 
84.4 重 装 和 分 用 nennen 173 
8.5 转发 : ip_forward 国 数 PP 174 
8.6 输出 处 理 : ip outputERAN cess eee 180 
861 首部 初始 化 esse 868 181 
862 路 由 选择 eene emm 182 
8.63 源 地 址 选择 和 分 片 eene 184 
8.7 Intemet 检 验 和 : in cksumiRÉE veee 186 
8.8 ”setsockopt 和 getsockopt 系 统 调用 …190 
8.81 PRCO_SETOPT 的 处 理 PP 192 
8.82 PRCO_GETOPT 的 处 理 66m 793 
^89 ip_sysct1 国 数 ee 193 
&10 小 结 eme eee 194 
第 9 章 PRPA ee e e e n nnnnnn6n 196 
91 8l eMe 196 
| 92 代码 介绍 eee Mmmm 196 
921 全 局 变量 eene] 196 
9.2.2 统计 量 本 197 
9.3 选项 格式 本 197 
94 ip dooptions M% ee. 198 
9.5 记录 路 由 选项 eene 200 


9.6 源 站 和 记录 路 由 选项 ppp 202 


9.61 save_rte 国 数 和 pp 205 
9.62 ip_srcroute 国 数 pp 206 
9.7 时 间 截 选项 RN 207 
9.8 ip insertoptionsERE. een 210 
99 ip_pcbopts 国 数 PN 214 
9.10 一 些 限制 HH 217 
911 小 结 eee 217 
$ 10x 下 的 分 片 与 重 装 0218 
10.1 引言 ee 218 
10.2 代码 介绍 oereeereretsnreerrerereneer erren 219 
1024. 全 局 变量 een nem 220 
1022 Sub 66e ee 220 
10.3 分 片 ee 220 
10.4 ip_optcopy 国 数 RPR 223 
10.5 HX Mee] 224 
10.6 ip reassi HE esee 227 
10.7 ip slowtimotKE ee 237 
10.8 小 结 eee eH eme 238 
4113 ICMP: Internet 控 制 报 文 协 议 …… 239 
1L1 8|! eee 239 
11.2 代码 介绍 cene 242 
11.2.1 全 局 变量 pp 242 
11.2.2 统计 量 nnm 242 
11.2.3 SNMP 变 量 8m 243 
11.3 icmp 结 构 PR 244 
11.4 ICMP 的 protosw 结 构 ……………………… 245 
11.5 输入 处 理 : icmp input% eesse 246 
11.6 差错 处 理 PP 249 
11.7 请 求 处 理 PP 251 
11.7.1. 回 显 询问 : ICMP_ECHO 和 
ICMP ECHOREPLY pp 252 
11.7.2 时 间 惟 询问 : ICMP_TSTAMP 和 
ICMP TSTAMPREPLY pp 253 
11.7.3 地 址 掩 码 询 问 : ICMP MASKREQjfH 
ICMP MASKREPLY eH 253 
11.74 信息 询问 : ICMP_IREQ 和 ICMP_ 
TREQREPLY pe 255 
11.7.5 路 由 器 发 现 : ICMP ROUTERADVERT 
和 ICMP_ROUTERSOLICIT eeens 255 


1L8 重 定向 处 理 eee 255 
119 回答 处 理 eme 257 
11.10 输出 处 理 pp 257 
11.11 icmp_error 国 数 RN 258 
11.2 icmp reflectiEK e 6e 261 
11.13 iemp sengge 6mm 265 
1L14 icmp_sysctl 国 数 esee 266 
1145 小 结 eM 266 
第 12 章 P% n 268 
12.1 引言 oe 268 
12.2 代码 介绍 pp 269 
1224. 全 局 变量 nee e n 270 
1222 统计 量 esee 270 
123 以 太 网 多 播 地 址 een 270 
124 ether_muliti 结 构 «eee 271 
125 ARREK m 273 
12.6 in_multi 结 构 ee 273 
12.7 ip_moptions 结 构 a 275 
128 SDE eere 276 
129 Z£8ZÉBJTTL[É 8 m 277 
129.1 MBONE Hem 278 
1292 扩展 环 搜索 enm 278 
12.10 ip setmoptionsBEÉ seen 278 


12.10.1 选择 一 个 明确 的 多 播 接口 : IP_ 
MULTICAST IF :eeeee:280 


1210.2. 选择 明确 的 多 播 TIL: IP 


MULTICAST TTL ee 281 

12.10.3 选择 多 播 环 回 : IP MULTICAST. 
LOOP eee 281 
1241. 加 入 一 个 下 多 播 组 nnn 282 
12.11.1 in addmultig NÉ eee 285 


12.44.23. siioctidiüloioctlmKE: 
SIOCADDMULTI 和 SIOCDELMULTI …287 
12.11.3 leioct1 国 数 : SIOCADDMULTI 和 


SIOCDELMULTI Rb 288 

12.1.4. ether addmultimRAE- seen 288 
1212. 离开 一 个 于 多 播 组 pp 291 
12121 in delmultidd c6 292 


12.122. ether delmultiff: sse 293 


12.13 ip getmoptionsERUK c 295 
1244 多 播 输入 处 理 : ipintr 函 数 ………… 296 
12.15 多 播 输 出 处 理 : ip output …… 298 
12.16 PERERA E ee 307 
12.17 INR emm eee 301 
第 13 章 IGMP: Internet 组 管理 协议 ………: 303 
13.1 引言 ee 303 
13.2 代码 介绍 ereeteeererrrerrereessseesererrnee 304 
13:1. 全 局 变量 ee ene n n n e e n n 304 
13.22 统计 量 pp Lese 304 
13.3 SNMP 变 量 eMe 305 
13.3 igmp 结 构 eMe 305 
13.4 IGMP 的 protosw 的 结构 «e 306 
13.5 加 入 一 个 组 : igmp_joingroup 国 数 …306 
13.6 igmp_fasttimno 国 数 see 308 
13.7 输入 处 理 : igmp_input 函 数 ………… 3H 

13.7.1 成 员 关 系 查询 : IGMP HOST 
MEMBERSHIP QUERY woes. 312 

1372 成 员 关 系 报告 : IGMP HOST. 
MEMBERSHIP REPORT pp 313 
13.8 离开 一 个 组 igp leavegroupERA …374 
13.9 4M e HR 315 
第 14 章 PERAR eee 316 
141 引言 ee 316 
14.2 RB eene 316 
14.1 全 局 变量 eee 316 
14.22 统计 量 eA 317 
1423 SNMPAEBR eee 317 
143 多 播 输 出 处 理 ( 续 ) -…………………… 317 
144 mrouted 守 护 程 序 …… Menem 318 
1&5 HEXABER eee 321 
145.1]. 虚拟 接口 表 ……… 322 
14.5.2 add vif cese 324 
14.5.3 del vif žk ee 326 
14.6 IGMP( 续 ) ee 327 
14.6.1 add lgrpRAZ pp 328 
14.62. del lgrpi&A. oe 329 
14.6.3 gplst_member 国 数 eese 330 
14.7 多 播 选 路 ee 331 


XII 


14.7.1 多 播 选 路 表 ov 334 
14.72 del mrtiÉL eee 335 
14.13 add mrt e ee e 336 
14.7.4 mrtEfind 国 数 本 337 
14.8 多 播 转 发 : ip_mforward 国 数 ………… 338 
14.81. phyint send eem 343 
14.82 tunnel sends seen 344 
14.9 清理 : ip mrouter donegR ………345 
14.10. 小 结 emm eee 346 
第 15 章 插口 层 eee M 348 
15.1 B| oe MH 348 
15.2 代码 介绍 MM 349 
15.3 socket£bMg esee 349 
154 XH ene 354 
15.4.1 举例 MH 355 
1542 系统 调用 小 结 eM 355 
155 进程 、 描 述 符 和 插曲 …………………… 357 
15.6 socket 系统 调用 eem 358 
15561 socreate 国 数 eee ene 359 
15.6.2 超级 用 户 特权 e 361 
15.7 ”getsock 和 sockargs 国 数 sesso 361 
15.8 bind 系统 调用 snm 363 
159 Listen 系 统 调 用 «eene 364 
15.10 tsleep 和 wakeup 国 数 ee 365 
15.11 accept ggg A ee 366 
15.42. sonewconnffllsoisconnected 
EN C eeaeshessestmareseseessmeseoetosseee eto 369 
15.13 connect 系统 调用 eene 372 
15.13.1 soconnect 国 数 eee 374 
15.13.2 切断 无 连接 插口 和 外 部 地 址 的 
E S: eese MI 375 
15.14 shutdown 系 统 调用 eene 375 
15.15 close EUH eene 377 
1515.4 soo_close 国 数 68) 377 
1515.2 soclose 函 数 cmm 378 
15.16 小 结 emen 380 
第 16 章 dEBIO-——— 381 
161 B|g eee eem 381 
162 代码 介绍 eMe 381 


163 播 口 缓存 eee 381 
164 write. writev. sendtod[sendmsg 
系统 调用 eM 384 
16.5_sendmsg 系 统 调用 PP 387 
166 _sendgit 国 数 ee 388 
166.1 uiomovefR E, ee 389 
1662 SU HH 390 
16.63 sendit MH 391 
167 sosend 国 数 eee e 392 
16.7. "[$&BUBRGAM EE E e 393 
16.7.2 不 可 靠 的 协议 缓存 e 393 
16.7.3 sosend 击 数 小 结 a 401 
16.7.4 性 能 间 题 e teer eeeee 401 
16.8 read, readv、 recvfrom 和 Yecvmsg 
系统 调用 PR 401 
169 recvmsg AZ Besten 402 
1610 recvitüljB HM 403 
1611 soreceivel RN 405 
1611.1 4A MEE em 406 
1611.2 举例 ee 406 
16113 其 他 的 接收 操作 选项 ……………… 407 
1611.4 接收 缓存 的 组 织 : 报 文 边界 …… 407 
16.11.5 接收 缓存 的 组 织 : 没有 报 文 边界 …408 
16.11.6 控制 信息 和 带 外 数据 nnn 409 
1612 soreceive 代 码 «MM 410 
1613 select KS eene 421 
1613.1 selscan 国 数 eee: 425 
16.13.2 soo_select $g eee 425 
16.3.3 selrecordBBH enne 427 
16.13.4 selwakeupiRHÁA «nnn 428 
16.14. lg Me HH 429 
第 17 章 播 口 选项 een 431 
17.1 BA eH 431 
17.2 代码 介绍 en renere 431 
17.3 setsockopt 系 统 调用 …………………… 432 
17.4 getsockopt 系 统 调用 … ………………437 
17.5 fcnt1 和 ioct1 系 统 调用 nen 440 
17.51 fcntl4&W ee 441 
1752 ioctlfKüB «HMM 443 


17.6 getsockname 系 统 调 用 esses 444 
17.7 getpeername 系 统 调用 ve 445 
178 小 结 ee 447 
第 18 章 Radix 树 路 由 表 essen 448 
181 引言 eee 448 
18:2 路 由 表 结 构 ee 448 
183 选 路 播 唱 cene .456 
184 代码 介绍 eem 456 
184.1 全 局 变量 eem 458 
1842 统计 量 eee 458 
184.3 SNMP E ee ee 459 
185 Radix 结 点 数据 结构 eee 6686 460 
18.6 ERKEK] eee 463 

18.7 初始 化 : route initffürtable init 
BAS e eme 465 

18.8 初始 化 : rn initffirn inithead 

国 数 e ee e e Hee 468 
189 重复 键 和 掩 码 列表 eene 471 
18.10 rn_match 国 数 cene 473 
18.11 rn_search 国 数 pp 480 
1812. 小 结 eee 481 
第 19 章 选 路 请 求 和 选 路 消息 ……………482 
19.1 引言 ee 482 
19.2 rtalloc 和 Frtalloc1L 国 数 «esee 482 
19.3 宏 RTFREE 和 rtfree 函 数 ……………… 484 
194 rtrequest 国 数 cese 486 
19.5 rt setgateifilli «eme 491 
19.6 rtinitiEE coe 493 
197 rtredirect Hg eee 495 
19.8 选 路 消息 的 结构 eene 498 
199 rt_missmsg 国 数 e eseeeennnee 501 
19.10 rt_ifmsg 国 数 eese 503 
19.11. rt, newaddrmsgER SE -+ €—— 504 
19.12 rt_msg1 函 数 e eee 505 
19.13 rt msg2HÉ e e e 507 
19.14. sysctl_rtable 国 数 seen 510 
19.15 sysct1_dumpentry 国 数 eeens 514 
19.16 sysctl iflistkÉ esses eeeese 515 
1937. 小 结 HH 517 


第 20 章 选 路 播 口 ee 518 
20. 引言 eH e 518 
20.2 routedomain 和 protosw 结 构 ………… 518 
20.35 选 路 控制 块 eM 519 
204 raw initiBEE =e 1 520 
205 route output 8 520 
206 rt xaddrsEREÉE 868 530 
207 rt_setmetrics 国 数 pp 531 
20.8 raw. input E MEME 532 
209 route usrreqiREK sem. 534 
20.10 raw usrreqtÉü 数 eese hetero rens 535 
20.11 raw attach, raw detachjd 

raw disconnectHf 数 ov 539 
20.12 小 结 ee 540 

第 21 章 ARP: 地 址 解析 协议 rennen 542 
211 介绍 e m .542 
21.2 ARP 和 路 由 表 eeeseseeeseeesem 542 
21.3 代码 介绍 pp 544 

213.1. 全 局 变量 e ne e 544 
21.3.2 统计 量 se 544 
21.5.3 SNMP 变 量 e nnn 546 
214 ARPÉ eem 546 
21.5 arpwhohas fÁ * PEPPER 548 
21.6 arprequest 国 数 s 548 
21.7 arpintr 国 数 nt 551 
21.8 in arpinput ER en MM 552 
21.9 ARP 定 时 器 销 数 MEME 557 
: 21.9.1 arptimer 国 数 Bessere] ern nnn 557 
2192 arptfree 国 数 esee 557 
21.10 arpresolve š ov 558 
21.11 arpblookup 国 数 on 562 
.21.12 代理 ARP Le 563 
21.13 arp_rtrequest H% MEME 564 
2114 ARP 和 多 播 eee 569 
2145 ME eee] 570 

第 22 章 协议 控制 块 een 66668 572 
224 BJB Hee 572 
222 代码 介绍 ov 573 

2221 全 局 变量 e ee 574 


XIV 


2222 统计 量 esee 574 
22.3 inpcb 的 结构 oe 574 
224 in pcballocdiin pcbdetachBRJA -575 
22.5 Sb. ERAJ nennen 577 
226 in pcblookupERAÉE 68M 581 
227 in pcbbindEABE n6 584 
228 in pcbconnecteAEE ee 589 
229 in_pcbdisconnect 销 数 ……………… 594 
22.10 in_setsockaddr 和 in_setpeeradgr 

ER eee 595 
22.11 in pcbnotify, in rtchangeff 
in losingiÉt eee 595 

22111 in rtchangeHÉL esee 598 

2241.22 重 定向 和 原始 插口 pp 599 

22.11.3 ICMP 差 错 和 UDP 插 口 n 600 

22114 in losing e 601 
2242 实现 求 精 eee emm 602 
2243 Md eH He 602 

423€ UDP: 用 户 数据 报 协 议 ………………: 605 
23.1 3I 言 ee 605 
232 代码 介绍 ee 605 

23.2.1 全 局 变量 eee 606 

23.2.2 gp eee 606 

22.23 SNMP 变 量 ee n nne 607 
23.3 UDP 的 protosw 结 构 «eee 607 
284 UDP 的 首部 eee 608 
23.5 udp initi eee 609 
23.6 udp_output 国 数 een 609 

23.6.1 在 前 面 加 上 IP/UDP 首 部 和 mbuf 灸 …612 

23.6.2 UDP 检验 和 计算 和 伪 首 部 een 612 
23.1 udp inputidE ceeeeemeeeem 616 

23.1 对 收 到 的 UDP 数据 报 的 一 般 确认 …616 

23.7.2 分 用 单 播 数据 报 nen en n n n 619 

23.7.3 分 用 多 播 和 广播 数据 报 ……………… 622 

23.7.4 连接 上 的 UDP 播 口 和 多 接口 主机 …625 
23.8 udp_savecpt 国 数 pp 625 
239 udp_ctlinput 国 数 68 627 
23.10 udp_usrreqg 国 数 PN 628 


23.11 uđp_sysct1 on 633 


23.12 实现 求 精 RN 633 
23.21 UDP PCB 高 速 缓存 ppp 633 
23.22 UDPEUA AR cM 634 

233 小 结 eee veterem 635 

4243 TCP: 传输 控制 协议 eee 636 

244 BÈ emm 636 

242 JOB eene 636 
24.2.1 全 局 变量 e e Hn 636 
2422 统计 量 Ge 637 
2423 SNMP 变 量 …… Deere rn ener 640 

243 TCP 的 proetosw 结 构 PP 641 

244 TCPÉU EBD eH 641 

245 TCPÉERBIA Rm 643 

246 TCPIERASAEAEBBI ee 645 

24.7 TCP 的 序号 oe e esesmese sees ron 646 

24.8 tcp initiK A MEME 650 

249 小 结 ee 652 

第 25 章 TOP ÆR ee 654 

251 引言 654 

252 (ERSA eM 655 

25.3 tcp canceltimersRe- sss 657 

254 tcp fasttimoPBEE eee 657 

25.5 tcp slowtimoiRAK een 658 

256 tcp timersikgÉE eme 659 
25.6.1 FIN WAIT 2 和 2MSL 定 时 器 ………… 660 
25.6.2 持续 定时 器 662 
25.6.3 连接 建立 定时 器 和 保 活 定时 器 ……662 

257 重 传 定时 器 的 计算 pp 665 

25.8 tcp_newtcpcb 算 法 ee 666 

25.9 tcp_setpersist H% MEME 668 

25.10 tcp xmit, timeriRA pp 669 

2511 重 传 超时 : tcp timersERME =- 673 
2511.1 慢 起 动 和 避免 拥塞 nnn 068 675 
25.11.2 精确 性 nnn 677 

2540 一 个 RTT 的 例子 cmmnnm677 

2513 小 结 HH Hee 679 

第 26 章 TCP 输 出 e 8 680 

261 引言 eMe 680 

262 tep_output 概 述 esce 680 


263 决定 是 否 应 发 送 一 个 报 文 段 
264 TCP 选 项 …… os 
265 窗口 大 小 选项 eH 
26.6 时 间 戳 选项 

26.6.1 哪个 时 间 惟 需要 回 显 ，RFC1323 


26.63 时 间 惟 与 延迟 ACK PR 
26.7 发 送 一 个 报 文 段 
268 tcp templatei eee 
269 tcp_respond 国 数 
2610 小 结 eH 

第 27 章 TCP 的 函数 
27.1 引言 
272 tcp drain% 
273 tcp dropPRBE e mem 


27.5 
27.6 
277 tcp notify se nenmnn 
27.8 tcp quenchiR Hi eem 
27.9 TCP REASSZHWltcp reassPR3ÉE 
2279. TCP REASSZ? emm 
2792 TCP REASSERÉE eene 
2710 tcp traceikEE eee 
27.11 小 结 eee Hem 
第 28 章 TCP 的 输入 
28.1 引言 
282 预 处 理 
28.3 tcp_dooptions 函 数 
28.4 首部 预测 
285 TCP 输 入 : 缓慢 的 执行 路 径 ……………- 
28.6 完成 被 动 打开 或 主动 打开 
28.6.1 完成 被 动 打开 ee em 
28.6.2 完成 主动 打开 eene 
287 PAWS: 防止 序号 回 缆 mmn 


28.8 裁剪 报 文 段 使 数据 在 窗口 内 ee 762 
289 GERREI oeer 768 
2810 jiuEMBAR eee 770 
2811 RST 处 理 eem 770 
2812 小 结 eeHMMMHMMMHMMMMIHMHeHÜm. 772 
第 29 章 TCP 的 输入 ( 续 ) MH 773 
29.1 引言 773 
292 ACK 处 理 概述 cnm 773 
293 完成 被 动 打开 和 同时 打开 eese 774 
294 快速 重 传 和 快速 恢复 的 算法 ene 775 
29.5 ACKABBEB eR 778 
29.6 更 新 窗口 信息 v6 784 
207 紧急 方式 处 理 ee 786 
29.8 tcp pulloutofbandE eese 788 
299 处 理 已 接收 的 数据 nenne 789 
29.10 FINABEÉ PN 791 
2911 最 后 的 处 理 eM 793 
29.12 实现 求 精 ………………… eme 795 
2943 首部 压缩 oeeeeeeereerrerererereereee 795 
29.13.1 引言 ee 796 
29.13.2 首部 字段 的 压缩 v 699 799 
29.13.3 特殊 情况 801 
29.13.4 实例 ee senem eme he ha es] 802 
29.13.5 配置 ee 803 
2944 2M eee HH 803 
第 30 章 “TCP 的 用 户 需 求 “ppp 805 
301 B| ee MM Hee 805 
302 tcp usrreqiR HA een 805 
30.3 tcp attachif A ee eere hoher nnn 814 
304 tcp disconnect e nnn 815 
30.5 tcp usrclosedtERE 本 816 
30.66 tcp ctloutputiR EE ce 817 
307 小 结 ee MM HMHnHnm 820 
第 31 章 BPF: BSD 分 组 过 滤 程 序 6e 821 
31] BIER e eee 821 
312 代码 介绍 cent 821 
31.2.1 全 局 变量 MEME 821 
3122 统计 量 eee eme 822 
313 bpf_if 结 构 eee eem 822 


XVI 


31.4 bof ad 结构 T" 825 
31.41 bpfopen $i sse vem 826 
3142 bpfioctlifo em 827 
3143 bpf setiflJEE eM 830 
314.4 bpf attachdps/ eee 831 

315 _BPE 的 输入 HMM HMM 832 
315.11 bpf_tap 国 数 see e 832 
315.2 ”catchpacket 国 数 eee 833 
315.3 bpfreadiWMB se 835 

31.66 _BPF 的 输出 eMe 837 

317 小 结 ee HH 838 

第 32 章 原始 I 人 P ee 839 

321 BIR MM] 839 

.322 (MB eH 839 


3221 全 局 变量 eee MA 839 
3222 统计 量 …………… nt 840 
323 原始 下 的 protosw 结 构 «eee 840 
324 rip init ee 842 
32.5 rip_input k% et 842 
326 rip outputiWHÉo e e rererere 844 
327 rip usrreqH o see trereeeseseee 846 
328 rip ctloutput Hg «eee 850 
329 小 结 eH mem 852 
结束 语 sesesessemassesesessmseseso poeseos eso oen 853 
附录 A 部 分 习题 的 解答 os 854 
HB 源 代码 的 获取 .……. MEER 872 
附录 C RFC 1122 的 有 关内 容 een n 874 


参考 文献 oo 895 


第 1{ 章 M XN 
1.1 引言 


本 章 介绍 伯克利 (Berkeley) 联 网 程序 代码 。 开 始 我 们 先 看 一 段 源 代码 并 介绍 一 些 通 篇 要 用 
的 印刷 约定 。 对 各 种 不 同 代码 版 本 的 简单 历史 回顾 让 我 们 可 以 看 到 本 书 中 的 源 代码 处 于 什么 
位 置 。 接 下 来 介绍 了 两 种 主要 的 编程 接口 ， 它 们 在 Unix 与 非 Unix 系 统 中 用 于 编写 TCP/IP 协 议 。 

然后 我 们 介绍 一 个 简单 的 用 户 程序 ， 它 发 送 一 个 UDP 数 据 报 给 一 个 位 于 另 一 主机 上 的 日 
期 /时 间 服 务 器 ， 服 务 器 返回 一 个 UDP 数 据 报 ， 其 中 包含 服务 器 上 日 期 和 时 间 的 ASCII 码 字符 
串 。 这 个 进程 发 送 的 数据 报 经 过 所 有 的 协议 栈 到 达 设 备 驱动 器 ， 来 自 服务 器 的 应 答 从 下 向 上 
经 过 所 有 协议 栈 到 达 这 个 进程 。 通 过 这 个 例子 的 这 些 细节 介绍 了 很 多 核心 数据 结构 和 概念 ， 
这 些 数据 结构 和 概念 在 后 面 的 章节 中 还 要 详细 说 明 。 | 

本 章 的 最 后 介绍 了 在 本 书 中 各 源 代码 的 组 织 ， 并 显示 了 联网 代码 在 整个 组 织 中 的 位 置 。 


1.2 源 代码 表示 
不 考虑 主题 ， 列 举 15 000 行 源 代码 本 身 就 是 一 件 难事 。 下 面 是 所 有 源 代码 都 使 用 的 文本 


格式 : 
381 void fcp_subr.c 
382 tcp quench(inp, errno) 
383 struct inpcb *inp; 
384 int errno; 
385 ( . 
386 struct tcpcb *tp - intotcpcb(inp); 
387 if (tp) 
388 tp-»snd cwnd = tp-»t maxseg; 
389 ) 
tcp subr.c 


1.2.3 将 拥塞 窗口 设置 为 1 


387-388 这 是 文件 tcp_subr .Cc 中 的 函数 tcp_quench。 这 些 源 文 件 名 引用 4.4BSD-Lite 发 
布 的 文件 。4.4BSD 在 1.13 节 中 讨论 。 每 个 非 空 白 行 都 有 编号 。 正 文 所 描述 的 代码 的 起 始 和 结 
束 位 置 的 行 号 记 于 行 开 始 处 ， 如 本 段 所 示 。 有 时 在 段 前 有 一 个 简短 的 描述 性 题 头 ， 对 所 描述 
的 代码 提供 一 个 概述 。 . 

这 些 源 代 码 同 4.4BSD-Lite 发 行 版 一 样 ， 偶 尔 也 包含 一 些 错误 ， 在 遇 到 时 我 们 会 提出 来 并 
加 以 讨论 ， 偶 尔 还 包括 一 些 原 作者 的 编者 评论 。 这 些 代码 已 通过 了 GNU 缩 进程 序 的 运行 ， 使 
它们 从 版 面 上 看 起 来 具有 一 致 性 。 制 表 符 的 位 置 被 设置 成 4 个 栏 的 界线 使 得 这 些 行 在 一 个 页 面 
中 显示 得 很 合适 。 在 定义 常量 时 ， 有 些 #ifdef 语 句 和 它们 的 对 应 语句 #endif 被 删 去 (如 : 
GATEWAY 和 MROUTING， 因 为 我 们 假设 系统 被 作为 一 个 路 由 器 或 多 播 路 由 器 )。 所 有 register 说 
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明 符 被 删 去 。 有 些 地 方 加 了 一 些 注释 ， 并 且 一 些 注 释 中 的 印刷 错误 被 修改 了 ， 但 代码 的 其 他 
部 分 被 保留 下 来 。 

这 些 函 数 大 小 不 一 ， 从 几 行 (如 前 面 的 tcp_quench) 到 最 大 1100 行 (tcp_input)。 超 过 
大 约 40 行 的 函数 一 般 被 分 成 段 ， 一 段 一 段 地 显示 。 虽 然 尽 量 使 代码 和 相应 的 描述 文字 放 在 同 
一 页 或 对 开 的 两 页 上 ， 但 为 了 节约 版 面 ， 不 可 能 完全 做 到 。 

本 书 中 有 很 多 对 其 他 函数 的 交叉 引用 。 为 了 避免 给 每 个 引用 都 添加 一 个 图 号 和 页 码 ， 书 
封底 内 页 中 有 一 一 个 本 书 中 描述 的 所 有 函数 和 宏 的 字 岂 交叉 引用 表 和 描述 的 起 始 页 码 。 因 为 本 
书 的 源 代码 来 自 公 开 的 4.4BSD_Lite 版 ， 因 此 很 容易 获得 它 的 一 个 拷贝 :附录 B 详 细 说 明了 各 
种 方法 。 当 你 阅读 文章 时 ， 有 时 它 会 帮助 你 搜索 一 个 在 线 拷贝 [例如 Unix 程 序 grep (D] 

描述 一 个 源 代码 模块 的 各 章 通常 以 所 讨论 的 源 文件 的 列表 开始 ， 接 着 是 全 局 变量 、 代 码 
维护 的 相关 统计 以 及 一 个 实际 系统 的 一 些 例子 统计 ， 最 后 是 与 所 描述 协议 相关 的 SNMP 变 量 。 
全 局 变量 的 定义 通常 跨越 各 种 源 文件 和 头 文件 ， 因 此 我 们 将 它们 集中 到 的 一 个 表 中 以 便于 参 
考 。 这 样 显示 所 有 的 统计 ， 简 化 了 后 面 当 统计 更 新 时 对 代码 的 讨论 。 卷 1 的 第 25 章 提供 了 
SNMP 的 所 有 细节 。 我 们 在 本 文中 关心 的 是 由 内 核 中 的 TCP/IP 例 程 维 护 的 、 支 持 在 系统 上 运 
行 的 SNMP 代 理 的 信息 。 

1.2.2 印刷 约定 

通 篇 的 图 中 ， 我 们 使 用 一 个 等 宽 字 体 表示 变量 名 和 结构 成 员 名 (m_next)， 用 斜体 等 宽 字 
体 表示 定义 常量 (NULL) 或 常量 的 值 (512) 的 名 称 ， 用 带 花 括号 的 粗 体 等 宽 字 体 表示 结构 名 称 
(mbuf{})。 这 里 有 一 个 例子 : 


mbuf{} 
next NULL 
512 


在 表 中 ， 我 们 使 用 等 宽 字体 表示 变量 名 称 和 结构 成 员 名 称 ， 用 斜体 等 宽 字体 表示 定义 的 
常量 。 这 里 有 一 个 例子 : - 





通常 用 这 种 方式 显示 所 有 的 #define 符 号 。 如 果 必要 ， 我 们 显示 符号 的 值 (4_BCAST 的 
值 无 关 紧 要 ) 并 且 所 列 符号 按 字母 排序 ， 除 非 对 顺序 有 特殊 要 求 。 
通 篇 我 们 会 使 用 像 这 样 的 缩 进 的 附加 说 明 来 描述 历史 的 观点 或 实现 的 细节 。 
我 们 用 有 一个 数字 在 圆 括号 里 的 命令 名 称 来 表示 Unix 命 令 ， 如 grep(1)。 圆 括号 中 的 数字 
是 4.4BSD 和 手册 "manual page” 中 此 命令 的 节 号 ， 在 那里 可 以 找到 其 他 的 信息 ， 


1.3 历史 


本 书 讨论 在 伯克利 的 加 利 福 尼 亚 大 学 计算 机 系统 研究 组 的 TCP/IP 实 现 的 常用 引用 。 历 史 
上 ， 它 曾 以 4.x BSD 系 统 (伯克利 软件 发 行 ) 和 “BSD 联 网 版 本 ”发 行 。 这 个 源 代码 是 很 多 其 他 
实现 的 起 点 ， 不 论 是 Unix 或 非 Unix 操 作 系 统 。 

图 1-1 显 示 了 各 种 BSD 版 本 的 年 表 ， 包 括 重要 的 TCP/IP 特 征 。 显 示 在 左边 的 版 本 是 公开 可 
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用 源 代码 版 ， 它 包括 所 有 联网 代码 : 协议 本 身 、 联 网 接 吕 的 内 核 例 程 及 很 多 应 用 和 实用 程序 
(如 Telnet 和 FTP)。 


42BSD (1983) 
第 一 次 被 广泛 应 用 的 
TCP/IP 版 本 


4.3BSD (1996) 
改进 了 TCP 性 能 


4.3BSD Tahoe (1988) 


慢 启动 ， 防 拥 寄 ， 快 束 
a Et 
BSD 联 网 软件 


1.0(1989): Net/1 
版 本 1.0(1989): Ne 4.3BSD Reno (1990) 


快速 恢复 ，TCP 首 部 预 


测 ，SLIP 首 部 压缩 ， 路 
` 由 表 改 变 


BSD 联 网 软件 


2.0(1991): Net/2 
版 本 2.0(1991): Ne 4.4BSD(1993) 


多 播 ， 长 肥 管 道 的 修改 


4.4BSD-Lite(1994) 
在 正文 中 用 Net/3 表 示 


图 1-1 带 有 重要 TCP/IP 特 征 的 各 种 BSD 版 本 


虽然 本 文 描述 的 软件 的 官方 名 称 为 4.4BSD-Lite 发 行 软件 ， 但 我 们 简单 地 称 它 为 Net/3。 

虽然 源 代码 由 U. C. Berkeley 发 行 并 被 称 为 伯克利 软件 发 行 ， 但 TCP/IP 代 码 确 实 是 各 种 研 
究 者 的 工作 的 融合 ， 包 括 伯克利 和 其 他 地 区 的 研究 人 员 。 

通 篇 我 们 会 使 用 术语 源 于 伯克利 的 实现 来 谈 及 各 厂商 的 实现 ， 如 SunOS 4.x、 系 统 V 版 本 
4(SVR4) 和 AIX 3.2， 它 们 的 TCP/IP 代 码 最 初 都 是 从 伯克利 源 代码 发 展 而 来 的 。 这 些 实现 有 很 
多 共同 之 处 ， 通 常 包括 同样 的 错误 ! 

在 图 1-1 中 没有 显示 的 伯克利 联网 代码 的 第 1 版 实际 上 是 1982 年 的 4.1cBSD， 但 是 
广泛 发 布 的 是 1983 年 的 版 本 4.2BSD。 
在 4.1cBSD 之 前 的 BSD 版 本 使 用 的 一 个 TCP/ 了 PP 实现， 是 由 Bolt Beranek and 

Newman(BBN) 的 Rob Gurwitz 和 Jack Haverty 开 发 的 。[Salus 1994] 的 第 18 章 提供 了 另 

外 一 些 合并 到 4.2BSD 中 的 BBN 代 码 细 节 。 其 他 对 伯克利 TCP/IP 代 码 有 影响 的 实现 是 

由 Ballistics 研 究 室 的 Mike Muuss 为 PDP-11 开 发 的 TCP/IP 实 现 。 

描述 联网 代码 从 一 个 版 本 到 下 一 个 版 本 的 变化 的 文档 有 限 。[Karels and 

McKusick 1986] 描 述 了 从 4.2BSD 到 4.3BSD 的 变化 ， 并 且 [Jacobson 1990d] 描 述 了 从 

4.3BSD Tahoe 到 4.3BSD Reno 的 变化 。 


1.4 应 用 编程 接口 
在 互联 网 协议 中 两 种 常用 的 应 用 编程 接口 (APD) 是 插口 (socket) 和 TLI( 运 输 层 接口 )。 前 者 
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有 时 称 为 伯克利 插口 (Berkeley socket)， 因 为 它 被 广泛 地 发 布 于 4.2BSD 系 统 中 ( 见 图 1-1)。 但 它 
已 被 移植 到 很 多 非 BSD Unix 系 统 和 很 多 非 Unix 系 统 中 。 后 者 最 初 是 由 AT&T 开 发 的 ， 由 于 被 
X/Open 承认 ， 有 时 叫 作 XTI(X/Open 传 输 接口 )。X/Open 是 一 个 计算 机 厂商 的 国际 组 织 ， 它 制 


定 自己 的 标准 。XTI 是 TLI 的 一 个 有 效 超 集 。 


虽然 本 文 不 是 一 本 程序 设计 书 ， 但 既然 在 Net/3( 和 所 有 BSD 版 本 ) 中 应 用 编程 用 插口 来 访 
间 TCP/AP， 我 们 还 是 说 明 一 下 插口 。 在 各 种 非 Unix 系 统 中 也 实现 了 插口 。 插 口 和 TLI 的 编程 细 


节 在 [Stevens 1990] 中 可 以 找到 。 


系统 V 版 本 4(SVR4) 也 为 应 用 编程 提供 了 一 组 插口 API， 在 实现 上 与 本 文中 列举 的 有 所 不 


同 。 在 SVR4 中 的 插口 基于 “ 流 ” 子 系统 ， 在 [Rago 1993] 中 有 所 说 明 。 
15 程序 示例 
在 本 章 我 们 用 一 个 简单 的 C 程 序 (图 1-2) 来 介绍 一 些 BSD 网 络 实现 的 很 多 特点 。 


1 /* 
2 * Send a UDP datagram to the daytime gerver on some other host, 
3 * read the reply, and print the time and date on the server. 
4 */ 
5 #include «sys/types.h» 
6 #include «sys/socket.h» 
7 #include «netinet/in.h» 
8 *include «arpa/inet.h» 
9 *include «stdio.h» 
10 4include «stdlib.h» 
11 #include «string.h» 
12 #define BUFFSIZE 150 /* arbitrary size */ 
13 int 
14 main() 
15 ( 
16 struct sockaddr in serv; 
17 char buff [BUFFSIZE]; 
18 int sockfd, n; 
19 if ((sockfd = socket (PF_INET, SOCK DGRAM, 0)) < O0) 
20 err sys("socket error"); 
21 bzero((char *) &serv, sizeof(serv)); 
22 serv.sin family = AF,INET; 
23 sexv.sin addr.s addr = inet addr("140.252.1.32"); 
24 serv.sin port - htons(13); 
25 if (sendto(sockfd, buff, BUFFSIZE, O0, E 
26 . (struct sockaddr *) &serv, sizeof(serv)) != BUFFSIZE) 
27 err sys("sendto error"); 
28 if ((n = recvfrom(sockfd, buff, BUFFSIZE, O0, 
29 (struct sockaddr *) NULL, (int *) NULL)) « 2) 
30 err sys("recvfrom error"); 
31 buff[n - 2] = 0; /* null terminate */ 
32 printf ("%s\n", buff); 
33 exit (0); 
34 } 


图 1-2 程序 示例 : 发 送 一 个 数据 报 给 UDP 日 期 /时 间 服 务 器 并 读 取 一 个 应 答 
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1. 创建 一 个 数据 报 插口 . : 
19-20 ”socket 销 数 创建 了 一 个 UDP 插口 ， 并 且 给 进程 返回 一 个 保存 在 变量 sockfd 中 的 描 
述 符 。 差 错 处 理 函 数 err_sys 在 [Stevens 1992] 的 附录 B.2 中 给 出 。 它 接收 任意 数量 的 参数 ， 
并 用 vsprintf 对 它们 格式 化 ， 将 系统 调用 产生 的 errno 值 对 应 的 Unix 错 误 信息 打印 出 来 ， 
并 中 断 进程 。 

我 们 在 不 同 的 地 方 使 用 术语 插口 : (1) 为 4.2BSD 开 发 的 程序 用 来 访问 网 络 协议 的 

API 通 常 串 插口 API 或 者 就 叫 插 口 接口 ; (2) socket 是 插口 API 中 的 一 个 函数 的 名 字 ; 

(3) 我 们 把 调用 socket 创 建 的 端点 叫做 一 个 插口 ， 如 评注 “创建 一 个 数据 报 插口 ”。 

但 是 这 里 还 有 一 些 地 方 也 使 用 术语 插口 : (4) socket Jt 6218 19 fli "] — 4-46 v d$ 

述 符 或 者 就 叫 一 个 插口 ; (5) 在 内 核 中 的 伯克利 联网 协议 实现 叫 插口 实现 ， 相 比较 其 

他 系统 如 : 系统 V 的 流 实现 。(6) 一 个 IP 地 址 和 一 个 端口 号 的 组 合 叫 一 个 插口 ，IP 地 址 

和 问 口 号 对 叫 一 个 插口 对 。. 所 垃 的 是 引用 哪 一 种 术语 是 很 明显 的 。 


2. 将 服务 器 地 址 放 到 结构 sockaddr_in 中 
21-24 ”在 一 个 互联 网 插口 地 址 结构 中 存放 日 期 /时 间 服 务 器 的 IP 地 址 (140.252.1.32) 和 端口 号 
(13)。 大 多 数 TCP/IP 实 现 都 提供 标准 的 日 期 /时 间 服 务 器 ， 它 的 端口 号 为 13 [Stevens 1994, 图 
1-9]。 我 们 对 服务 器 主机 的 选择 是 随意 的 一 一 直接 选择 了 提供 此 服务 的 本 地 主机 (图 1-17)。 

函数 inet_addr 将 一 个 点 分 十 进 制 表示 的 IP 地 址 的 ASCII 字 符 串 转换 成 网 络 字 节 序 的 32 
bit 二 进 制 整数 。(Internet 协 议 族 的 网 络 字 节 序 是 高 字 节 在 后 )。 函 数 htons 把 一 个 主机 字 节 序 
的 短 整 数 ( 可 能 是 低 字 节 在 后 ) 转 换 成 网 络 字 节 序 (高 字 节 在 后 )。 在 Sparc 这 种 系统 中 ， 整 数 是 高 
字 节 在 后 的 格式 ，htons 典 型 地 是 一 个 什么 也 不 做 的 宏 。 但 是 在 低 字 节 在 后 的 80386 上 的 
BSD/386 系 统 中 ，htons 可 能 是 一 个 宏 或 者 是 一 个 函数 ， 来 完成 一 个 16 bit 整 数 中 的 两 个 字 节 
的 交换 。 , 

3. 发 送 数 据 报 给 服务 器 
25-27 程序 调用 sendto 发 送 一 个 150 字 节 的 数据 报 给 服务 器 。 因 为 是 运行 时 栈 中 分 配 的 未 初 
始 化 数组 ，150 字 节 的 缓存 内 容 是 不 确定 的 。 但 没有 关系 ， 因 为 服务 器 根本 就 不 看 它 收 到 的 报 
文 的 内 容 。 当 服务 器 收 到 一 个 报 文 时 ， 就 发 送 一 个 应 答 给 客户 端 。 应 答 中 包含 服务 器 以 可 读 
格式 表示 的 当前 时 间 和 日 期 。 

我 们 选择 的 150 字 节 的 客户 数据 报 是 随意 的 。 我 们 有 意 选 择 一 个 报 文 长 度 在 100~208 之 间 
的 值 ， 来 说 明 在 本 章 的 后 面 要 提 到 的 mbuf 链 表 的 使 用 。 为 了 避免 拥塞 ， 在 以 太 网 中 ， 我 们 希 
望 长 度 要 小 于 1472。 

4. 读 取 从 服务 器 返回 的 数据 报 
28-32 ”程序 通过 调用 recvfrom 来 读 取 从 服务 器 发 回 的 数据 报 。Unix 服 务 器 典型 地 发 回 一 
个 如 下 格式 的 26 字 节 字 符 串 

Sat Dec 11 11:28:05 1993\r\n 
\r 是 一 个 ASCII 回 车 符 ，\n 是 ASCIH 换 行 符 。 我 们 的 程序 将 回 车 符 替换 成 一 个 空 字 节 ， 然 后 
调用 printf 输 出 结果 。 : 

在 本 章 和 下 一 章 我 们 在 分 析 了 前 数 socket、sendto 和 recvfrom 的 实现 时 ， 要 进入 这 个 
例子 的 一 些 细节 部 分 。 
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1.6 系统 调用 和 库 函 数 


所 有 的 操作 系统 都 提供 服务 访问 点 ， 程 序 可 以 通过 它们 请 求 内 核 中 的 服务 。 各 种 Unix 都 
提供 精心 定义 的 有 限 个 内 核 人 口 点 ， 即 系统 调用 。 我 们 不 能 改变 系统 调用 ， 除 非 我 们 有 内 核 
的 源 代码 。Unix 第 7 版 提供 大 约 50 个 系统 调用 ，4.4BSD 提 供 大 约 135 个 ， 而 SVR4 大 约 有 120 
个 。 

在 《Unix 程 序 员 和 手册》 第 2 节 中 有 系统 调用 接口 的 文档 。 它 是 以 C 语 言 定义 的 ， 在 任何 给 
定 的 系统 中 无 需 考虑 系统 调用 是 如 何 被 调用 的 。 l 

在 各 种 Unix 系 统 中 ， 每 个 系统 调用 在 标准 C 函 数 库 中 都 有 一 个 相同 名 字 的 函数 。 一 个 应 用 
程序 用 标准 C 的 调用 序列 来 调用 此 函数 。 这 个 函数 再 调用 相应 的 内 核 服务 ， 所 使 用 的 技术 依赖 
于 所 在 系统 。 例 如 ， 函 数 可 能 把 一 个 或 多 个 C 参 数 放 到 通用 寄存 器 中 ， 并 执行 几 条 机 器 指令 产 
生 一 个 软件 中 断 进入 内 核 。 对 于 我 们 来 说 ， 可 以 把 系统 调用 看 成 C 函 数 。 

在 《Unix 程 序 员 手册 》 的 第 3 节 中 为 程序 员 定 义 了 一 般 用 途 的 函数 。 虽 然 这 些 函 数 可 能 调 
用 一 个 或 多 个 内 核 系 统 调用 但 没有 进入 内 核 的 入 口 点 。 如 函数 printf 可 能 调用 了 系统 调用 write 
去 执行 输出 ， 而 函数 strcpy( 复 制 一 个 串 ) 和 atoi( 将 ASCIHI 码 转换 成 整数 ) 完 全 不 涉及 操作 系统 。 

从 实现 者 的 角度 来 看 ， 一 个 系统 调用 和 库 函 数 有 着 根本 的 区 别 。 但 在 用 户 看 来 区 别 并 不 
严重 。 例 如 ， 在 4.4BSD 中 我 们 运行 图 1-2 中 的 程序 。 程 序 调 用 了 三 个 函数 : socket. 
sendto 和 recvfrom， 每 个 函数 最 终 调 用 了 一 个 内 核 中 同样 名 称 的 函数 。 在 本 书 的 后 面 我 们 
可 以 看 到 这 三 个 系统 调用 的 BSD 内 核实 现 。 

如 果 我 们 在 SVR4 中 运行 这 个 程序 ， 在 那里 ， 用 户 库 中 的 插口 冰 数 调用 “ 流 ” 子 系统 ， 那 
么 三 个 函数 同 内 核 的 相互 作用 是 完全 不 同 的 。 在 SVR4 中 对 socket 的 调用 最 终 调用 内 核 open 
系统 调用 ， 操 作文 件 /dev/udp 并 将 流 模 块 sockmod 放 置 到 结果 流 。 调 用 sendto 导 致 一 个 
putmsg 系 统 调 用 ， 而 调用 recvfrom 导 致 一 个 getmsg 系 统 调用 。 这 些 SVR 4 的 细节 在 本 书 
中 并 不 重要 ， 我 们 仅仅 想 指出 的 是 : 实现 可 能 不 同 但 都 提供 相同 的 API 给 应 用 程序 。 

最 后 ， 从 一 个 版 本 到 下 一 个 版 本 的 实现 技术 可 能 会 改变 。 例 如 ， 在 Neti 中 ，send 和 sendto 
是 分 别 用 内 核 系 统 调用 实现 的 。 但 在 NetW3 中 ，send 是 一 个 调用 系统 调用 sendto 的 库 胃 数 : 


send(int s, char *msg, int len, int flags) 


( 
return(sendto(s, msg, len, flags, (struct sockaddr *) NULL, 0)); 


j 、 
用 库 函 数 实现 send 的 好 处 是 仅 调用 sendto， 减 少 了 系统 调用 的 个 数 和 内 核 代码 的 长 度 。 缺 
点 是 由 于 多 调用 了 一 个 函数 ， 增 加 了 进程 调用 send 的 开销 。 

因为 本 书 是 说 明 TCP/IP 的 伯克利 实现 的 ， 大 多 数 进 程 调用 的 函数 (socket、bind.、 
connect 等 ) 是 直接 由 内 核 系 统 调用 来 实现 。 


1.7 网 络 实现 概述 
Net3 通 过 同时 对 多 种 通信 协议 的 支持 来 提供 通用 的 底层 基础 服务 。 的 确 ，4.4BSD 支 持 四 
种 不 同 的 通信 协议 族 : 


1) TCP/IP( 互 联网 协议 族 )， 本 书 的 主题 。 . 
2) XNS(Xerox 网 络 系 统 )， 一 个 与 TCP/IP 相 似 的 协议 族 ， 在 80 年 代 中 期 它 被 广泛 应 用 于 连 
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接 Xerox 设 备 (如 打印 机 和 文件 服务 器 )， 通 常 使 用 的 是 以 太 网 。 虽 然 Net/3 仍 然 发 布 它 的 代码 ， 
但 今天 已 很 少 使 用 这 个 协议 了 ， 并 且 很 多 使 用 伯克利 TCP/IP 代 码 的 厂商 把 XNS 代 码 删 去 了 (这 
样 他 们 就 不 需要 支持 它 了 )。 

3) OSI 协议 [Rose 1990; Piscitello and Chapin 1993]。 这 些 协议 是 在 80 年 代 作 为 开放 系统 
技术 的 最 终 目标 而 设计 的 ， 来 代替 所 有 其 他 通信 协议 。 在 90 年 代 初 它 没有 什么 吸引 力 ， 以 致 
于 在 真正 的 网 络 中 很 少 被 使 用 。 它 的 历史 地 位 有 待 进一步 确定 。 

4) Unix 域 协议 。 从 通信 协议 是 用 来 在 不 同 的 系统 之 间 交 换 信 息 的 意义 上 来 说 ， 它 还 不 算 
是 一 套 真正 的 协议 ， 但 它 提 供 了 一 种 进程 间 通 信 (IPC) 的 形式 。 

相对 于 其 他 IPC， 例 如 系统 V 消 息 队 列 ， 在 同一 主机 上 两 个 进程 间 的 IPC 使 用 Unix 域 协议 
的 好 处 是 Unix 域 协议 用 与 其 他 三 种 协议 同样 的 API( 插 口 ) 访 问 。 另 一 方面 ， 消 息 队 列 和 大 多 数 
其 他 形式 IPC 的 API 与 插口 和 TLI 完 全 不 同 。 在 同一 主机 上 的 两 进程 间 的 IPC 使 用 网 络 API， 更 
容易 将 一 个 客户 /服务 器 应 用 程序 从 一 台 主 机 移植 到 多 台 主 机 上 。 在 Unix 域 中 提供 两 个 不 同 的 
协议 一 一 一 个 是 可 靠 的 ， 面 向 连接 的 ， 与 TCP 相 似 的 字 布 流 协 议 ， 一 个 是 不 可 靠 的 ， 无 连接 
的 ， 与 UDP 相 似 的 数据 报 协议 。 

虽然 Unix 域 协议 可 以 作为 一 种 同一 主机 上 两 进程 间 的 IPC， 但 也 可 以 用 TCP/IP 来 
完成 它们 之 间 的 通信 。 进 程 间 通信 并 不 要 求 使 用 在 不 同 的 主机 上 的 互联 网 协议 。 

内 核 中 的 联网 代码 组 织 成 三 层 ， 如 图 7. 应 用 
1-3 所 示 。 在 图 的 右 侧 我 们 注 明 了 OSI 参考 
模型 [Piscitello 和 Chapin 1994] 的 七 层 分 别 > 
对 应 到 BSD 组 织 的 哪里 。 (socket, bind, connect, etc.) 

1) 插口 层 是 一 个 到 下 面 协议 相关 层 的 
协议 无 关 接口 。 所 有 系统 调用 从 协议 无 关 











的 插口 层 开 始 。 例 如 : 在 插口 县 中 的 bind 协议 层 | 4. 运输 
系统 调用 的 协议 无 关 代 码 包含 几 十 行 代码 ， (TCPIP, XNS, OSI, Unix) 3 网 络 
它们 验证 的 第 一 个 参数 是 一 个 有 效 的 插口 接口 层 2 数据 链 路 
描述 符 ， 并 且 第 二 个 参数 是 一 个 进程 中 的 (以 大 网 、SLIP、 坏 口 等 等 ) 


有 效 指针 。 然 后 调用 下 层 的 协议 相关 代码 ， 
协议 相关 代码 可 能 包含 几 百 行 代码 。 媒体 1 物理 

2) 协议 层 包括 我 们 前 面 提 到 的 四 种 协 图 1.3 Net3 联 网 代码 的 大 概 组 织 
议 族 (TCP/IP，XNS，OSI 和 Unix 域 ) 的 实现 。 
每 个 协议 族 可 能 包含 自己 的 内 部 结构 ， 在 图 1-3 中 我 们 没有 显示 出 来 。 例 如 ， 在 Internet 协 议 族 
中 ，IP( 网 络 层 ) 是 最 低层 ，TCP 和 UDP 两 运输 层 在 IP 的 上 面 。 

3) 接口 层 包 括 同 网 络 设备 通信 和 的 设备 驱动 程序 。 


1.8 描述 符 


图 1-2 中 ， 一 开始 调用 socket， 这 要 求 定义 插口 类 型 。Internet 协 议 族 (PF_INET) 和 数据 
报 插口 (S0CK_DGRAM) 组 合成 一 个 UDP 协 议 插 口 。 

socket 的 返回 值 是 一 个 描述 符 ， 它 具有 其 他 Unix 描 述 符 的 所 有 特性 : 可 以 用 这 个 描述 
符 调用 read 和 write; 可 以 用 dup 复 制 它 ， 在 调用 了 fork 后 ， 父 进程 和 子 进程 可 以 共享 
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它 ; 可 以 调用 fcnt1 来 改变 它 的 属性 ， 可 以 调用 colse 来 关闭 它 ， 等 等 。 在 我 们 的 例子 中 可 
以 看 到 插口 描述 符 是 函数 sendto 和 recvfrom 的 第 一 个 参数 。 当 程序 终止 时 (通过 调用 
exit)， 所 有 打开 的 描述 符 ， 包 括 插口 描述 符 都 会 被 内 核 关闭 。 

我 们 现在 介绍 在 进程 调用 socket 时 被 内 核 创建 的 数据 结构 。 在 后 面 的 几 章 中 会 更 详细 地 
描述 这 些 数据 结构 。 

首先 从 进程 的 进程 表 表 项 开始 。 在 每 个 进程 的 生存 期 内 都 会 有 一 个 对 应 的 进程 表 表 项 存 
在 。 

一 个 描述 符 是 进程 的 进程 表 表 项 中 的 一 个 数组 的 下 标 。 这 个 数组 项 指向 一 个 打开 文件 表 
的 结构 ， 这 个 结构 又 指向 一 个 描述 此 文件 的 1-node 或 Vv-node 结 构 。 图 1-4 说 明了 这 种 关系 。 


vnodet) 


file() 


filet) 





图 1-4 从 一 个 描述 符 开始 的 内 核 数据 结构 的 基本 关系 


在 这 个 图 中 ， 我 们 还 显示 了 一 个 涉及 插口 的 描述 符 ， 它 是 本 书 的 焦点 。 由 于 进程 表 表 项 
是 由 以 下 C 语 言 定义 的 ， 我 们 把 记号 proc {} 放 在 进程 表 项 的 上 面 。 并 且 在 本 书 所 有 的 图 中 都 
用 它 来 标注 这 个 结构 。 


struct proc { 


} ; 
[Stevens 1992，3.10 节 ] 显 示 了 当 进 程 调 用 dup 和 fork 时 ， 描 述 符 、 文 件 表 结构 和 i-node 
或 v-node 之 间 的 关系 是 如 何 改 变 的 。 这 三 种 数据 结构 的 关系 存在 于 所 有 版 本 的 Unix 中 ， 但 不 
同 的 实现 细节 有 所 变化 。 在 本 书 中 我 们 感 兴趣 的 是 socket 结 构 和 它 所 指向 的 Internet 专 用 数 
据 结 构 。 但 是 既然 插口 系统 调用 以 一 个 描述 符 开 始 ， 我 们 就 需要 理解 如 何 从 一 个 描述 符 导 出 
一 个 socket 结 构 。 

如 果 程 序 如 此 执行 

不 重 定向 标准 输入 (描述 符 0)、 标 准 输出 (描述 符 1) 和 标准 错误 处 理 (描述 符 2)， 图 1-5 显 示 
了 程序 示例 中 的 Net/3 数 据 结 构 的 更 多 细节 。 在 这 个 例子 中 ， 描 述 符 0、1 和 2 连接 到 我 们 的 终 
端 ， 并 且 当 socket 被 调用 时 未 用 描述 符 的 最 小 编号 是 3。 

当 进 程 执行 了 一 个 系统 调用 ， 如 socket， 内 核 就 访问 进程 表 结 构 。 在 这 个 结构 中 的 项 
p_fd 指 向 进程 的 filedesc 结 构 。 在 这 个 结构 中 有 两 个 我 们 现在 关心 的 成 员 : 一 个 是 


fq_ofilef1lags， 它 是 一 个 字符 数组 指针 (每 个 描述 符 有 一 个 描述 符 标志 ) ; 一 个 是 
fa ofiles， 它 是 一 个 指向 文件 表 结构 的 指针 数组 的 指针 。 描 述 符 标 志 有 8 bit， 只 有 两 位 可 
为 任何 描述 符 设置 : close-on-exec 标 志和 mapped-from-device 标 志 。 在 这 里 我 们 显示 的 所 有 标 


志 都 是 0。 
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vn_select 
vn. close L tops 
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图 1-5 在 程序 示例 中 调用 socket 后 的 内 核 数据 结构 
由 于 Unix 描 述 符 与 很 多 东西 有 关 ， 除 了 文件 外 ， 还 有 : wo, Fl. AR. R 
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备 等 等 ， 因 此 ， 我 们 有 总 把 本 节 叫 做 “描述 符 ” 而 不 是 “文件 描述 符 ”。 但 是 很 多 
Unix 文 献 在 谈 到 描述 符 时 总 是 加 上 “文件 ”这 个 修饰 词 ， 其 实 没有 必要 。 虽 然 我 们 
要 说 明 的 是 插口 描述 符 ， 但 这 个 内 核 数据 结构 叫 fileqesc{}。 我 们 尽 可 能 地 使 用 
描述 符 这 个 未 加 修饰 的 本 语 。 


项 fd_ofiles 指 向 的 数据 结构 用 *file{}[] 来 表示 。 它 是 一 个 指向 file 结 构 的 指针 数 
组 。 这 个 数组 及 描述 符 标 志 数 组 的 下 标 就 是 描述 符 本 身 : 0、1、2 等 等 ， 是 非 负 整数 。 在 图 1- 
5 中 我 们 可 以 看 到 描述 符 0、1、2 对 应 的 项 指向 图 底部 的 同一 个 file 结 构 ( 由 于 这 三 个 描述 符 都 
对 应 终端 设备 )。 描 述 符 3 对 应 的 项 指向 另外 一 个 file 结 构 。 

结构 file 的 成 员 f_type 指 示 描 述 符 的 类 型 是 DTYPE_SOCKET 和 DTYPE_VNODE。 V- 
node 是 一 个 通用 机 制 ， 允 许 内 核 支持 不 同类 型 的 文件 系统 一 一 磁盘 文件 系统 、 网 络 文 件 系 统 
(如 NFS)、CD-ROM 文 件 系统 、 基 于 存储 器 的 文件 系统 等 等 。 在 本 书 中 关心 的 不 是 v-node， 
为 TCP/IP 播 口 的 类 型 总 是 DTYPBE_SOCKET。 | 

结构 file 的 成 员 f_data 指 向 一 个 socket 结 构 或 者 一 个 vnode 结 构 ， 根 据 描述 符 类 型 
而 定 。 成 员 f_ops 指 向 一 个 有 5 个 函数 指针 的 向 量 。 这 些 函 数 指针 用 在 read、readyv、 
write、writev、ioctl、select 和 close 系 统 调用 中 ， 这 些 系统 调用 需要 一 个 插口 描述 
符 或 非 插口 描述 符 。 这 些 系 统 调 用 每 次 被 调用 时 都 要 查看 f_type 的 值 , 然后 做 出 相应 的 跳 转 ， 
实现 者 选择 了 直接 通过 fileops 结 构 的 相应 项 来 跳 转 的 方式 。 

我 们 用 一 个 等 宽 字 体 (fo_read) 来 醒目 地 表示 一 个 结构 成 员 的 名 称 ， 用 斜体 等 宽 字体 
(soo_read) 来 表示 一 个 结构 成 员 的 内 容 。 注 意 ， 有 时 我 们 用 一 个 箭头 指向 一 个 结构 的 左上 角 
(如 结构 filedesc)， 有 时 用 一 个 箭头 指向 右上 角 (如 结构 file 和 fileops)。 我 们 用 这 些 方 
法 来 简化 图 例 。 

下 面 我 们 来 查看 结构 socket， 当 描述 符 的 类 型 是 DTYPE_SOCKET 时 ， 结 构 file 指 向 结 
构 socket。 在 我 们 的 例子 中 ，socket 的 类 型 (数据 报 插 口 的 类 型 是 SOCK_DGRAM) 保存 在 成 
员 so_type 中 。 还 分 配 了 一 个 Internet 协 议 控 制 块 (PCB): 一 个 jnpcb 结 构 。 结 构 socket 的 
成 员 so_pcb 指 向 inpcb， 并 且 结 构 inpcb 的 成 员 inp_socket 指 向 结构 socket。 对 于 一 个 
给 定 插口 的 操作 可 能 来 自 两 个 方向 : “上 ”或 “下 ?， 因 此 需要 有 指针 来 互相 指向 。 

D 当 进 程 执行 一 个 系统 调用 时 ， 如 sendto， 内 核 从 描述 符 值 开始 ， 使 用 fd_ofiles 索 
引 到 file 结 构 指 针 向 量 ， 直 到 描述 符 所 对 应 的 file 结 构 。 结 构 file 指 向 socket 结 构 ， 结 
构 socket 带 有 指向 结构 inpcb 的 指针 。 

2) 当 一 个 UDP 数据 报到 达 一 个 网 络 接口 时 ， 内 核 搜索 所 有 UDP 协议 控制 块 ， 寻 找 一 个 合 
适 的 ， 至 少 要 根据 目标 UDP 端 口号 ， 可 能 还 要 根据 目标 IP 地 址 、 源 IP 地 址 和 源 端 口号 。 一 旦 
定位 所 找 的 inpcb， 内 核 就 能 通过 inp_socket 指 针 来 找到 相应 的 socket 结 构 。 

成 员 inp_faddr 和 inp_laddr 包 含 远 地 和 本 地 IP 地 址 ， 而 成 员 inp_fport 和 
inp_lport 包 含 远 地 和 本 地 端口 号 。IP 地 址 和 端口 号 的 组 合 经 常 叫 做 一 个 插口 。 

在 图 1-5 的 左边 ， 我 们 用 名 称 udb 来 标注 另 一 个 ijnpcb 结 构 。 这 是 一 个 全 局 结构 ， 它 是 所 
有 UDP PCB 组 成 的 链表 表 头 。 我 们 可 以 看 到 两 个 成 员 inp_next 和 inp_prev 把 所 有 的 UDP 
PCB 组 成 了 一 个 双向 环 型 链表 。 为 了 简化 此 图 ， 我 们 用 两 条 平行 的 水 平 箭头 来 表示 两 条 链 ， 
而 不 是 用 箭头 指向 PCB 的 顶 角 。 右 边 的 inpcb 结 构 的 成 员 inp_prev 指 向 结构 db， 而 不 是 它 
的 成 员 inp_prev。 来 自 udab .inp_prev 和 另 一 个 PCB 成 员 inp_next 的 虚线 稍 头 表示 这 里 
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还 有 其 他 PCB 在 这 个 双 链 表 上 ， 但 我 们 没有 画 出 。 

在 本 章 ， 我 们 已 看 了 不 少 内核 数 据 结构 ， 大 多 数 还 要 在 后 续 章 节 中 说 明 。 现 在 要 理解 的 
关键 是 : 

1) 我 们 的 进程 调用 socket， 最 后 分 配 了 最 小 未 用 的 描述 符 (在 我 们 的 例子 中 是 3) 。 在 后 
面 ， 所 有 针对 此 socket 的 系统 调用 都 要 用 这 个 描述 符 。 

2) 以 下 内 核 数据 结构 是 一 起 被 分 配 和 链接 起 来 的 : 一 个 DTYPE_SOCKET 类 型 fi1e 结 构 、 
一 个 socket 结 构 和 一 个 jnpcb 结 构 。 这 些 结构 的 很 多 初始 化 过 程 我 们 并 没有 说 明 : file 结 
构 的 读 写 标志 (因为 调用 socket 总 是 返回 一 个 可 读 或 可 写 的 描述 符 ); 默认 的 输入 和 输出 组 
存 大 小 被 设置 在 socket 结 构 中 ， 等 等 。 

3) 我 们 显示 了 标准 输入 、 输 出 和 标准 错误 处 理 的 非 socket 描 述 符 的 目的 是 为 了 说 明 所 有 
描述 符 最 后 都 对 应 一 个 file 结构 ， 虽 然 socket 描 述 符 和 其 他 描述 符 之 间 有 所 不 同 。 


1.9 mbuf 与 输出 处 理 


在 伯克利 联网 代码 设计 中 的 一 个 基本 概念 就 是 存储 器 缓存 ， 称 作 一 个 mbuf， 在 整个 联网 
代码 中 用 于 存储 各 种 信息 。 通 过 我 们 的 简单 例子 (图 1-2) 分 析 一 些 mbuf 的 典型 用 法 。 在 第 2 章 中 
我 们 会 更 详细 地 说 明 mbuf。 


19.1 包含 插口 地 址 结构 的 mbuf 


在 sendato 调 用 中 ， 第 5 个 参数 指向 一 个 Internet 揪 口 地 址 结构 ( 叫 serv)， 第 6 个 参数 指示 它 
的 长 度 (后 面 我 们 将 要 看 到 是 16 个 字 节 )。 播 口 层 为 这 个 系统 调用 做 的 第 一 件 事 就 是 验证 这 些 参 
数 是 有 效 的 ( 即 这 个 指针 指向 进程 地 址 空间 的 一 段 存储 器 )， 并 且 将 播 口 地 址 结构 复制 到 一 个 
mbuf 中 。 图 1-6 所 示 的 是 这 个 所 得 到 的 mbuf。 


mbuf() 





NULL 
NULL 
16 








MT SONAME 
0 


带 有 目标 IP 地 址 和 端口 号 的 
16 字 节 的 sockaddr_int{} 


图 1-6 mbuf 中 针对 sendto 的 目的 地 址 
mbuf 的 前 20 个 字 节 是 首部 ， 它 包含 关于 这 个 mbuf 的 一 些 信息 。 这 20 个 字 节 的 首部 包括 四 


个 4 字 节 字段 和 两 个 2 字 节 字段 。mbuf 的 总 长 为 128 个 字 节 。 
稍 后 我 们 会 看 到 ，mbuf 可 以 用 成 员 m_next 和 m_nextpkt 链 接 起 来 。 在 这 个 例子 中 都 是 
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空 指针 ， 它 是 一 个 独立 的 mbuf。 

成 员 m_aata 指 向 mbuf 中 的 数据 ， 成 员 m_len 指 示 它 的 长 度 。 对 于 这 个 例子 ，m_data 
指向 mbuf 中 数据 的 第 一 个 字 节 ( 紧 接着 mbuf 首 部 )。mbuf 后 面 的 92 个 字 节 (108-16) 没 有 用 (图 1-6 
的 阴影 部 分 )。 

成 员 m_type 指 示 包 含 在 mbuf 中 数据 的 类 型 ， 在 本 例 中 是 MT_SONAME( 插 口 名 称 )。 首 部 
的 最 后 一 个 成 员 m_flags， 在 本 例 中 是 零 。 


1.9.2 包含 数据 的 mbuf 


下 面 继续 讨论 我 们 的 例子 ， 桂 口 层 将 sendto 调 用 中 指定 的 数据 缓存 中 的 数据 复制 到 一 个 或 
多 个 mbuf 中 。sendto 的 第 二 个 参数 指示 了 数据 缓存 (buff) 的 开始 位 置 ， 第 三 个 参数 是 它 的 大 
小 (150 字 节 )。 图 1-7 显 示 了 150 字 节 的 数据 是 如 何 存储 在 两 个 mbuf 中 的 。 


























mbuf () : 指向 链 中 下 人 mbuft 的 指针  mbuf(í) 
m next -—L—————— - cm next NUL 
m nextpkt NULL m nextpkt "E J NULL 
[m len |100 [m len — |so 
^—1nm data —— m data EC 
m type MT DATA | m t ype , MT DATA 
[m flags ` \ m f lags EE 
m pkthdr.len 1 n E 
| m pkthdr.rcvif|NULL f » pg 
a EAA - ) 字 节 的 数 
s 
100 字 节 的 数据 
| 
| 














图 1-7 用 两 个 mbuf 来 存储 150 字 节 的 数据 


这 种 安排 叫做 mbuf 链 表 。 在 每 个 mbuf 中 的 成 员 m_next 把 链表 中 所 有 的 mbuf 都 链接 在 一 

起 。 
我 们 看 到 的 另 一 个 变化 是 链表 中 第 一 个 mbuf 的 mbuf 首 部 的 另外 两 个 成 员 : m pkthdr.len 

和 m_pkthdr .rcvif。 这 两 个 成 员 组 成 了 分 组 首部 并 且 只 用 在 链表 的 第 一 个 mbuf 中 。 成 员 
m_flags 的 值 是 M_PKTHDR， 指 示 这 个 mbuf 包 含 一 个 分 组 首部 。 分 组 首部 结构 的 成 员 len 包 含 
了 整个 mbuf 链 表 的 总 长 度 ( 在 本 例 中 是 150)， 下 一 个 成 员 rcvif 在 后 面 我 们 会 看 到 ， 它 包含 了 
一 个 指向 接收 分 组 的 接收 接口 结构 的 指针 。 

因为 mbuf 总 是 128 个 字 节 ， 在 链表 的 第 一 个 mbuf 中 提供 了 100 字 节 的 数据 存储 能 力 ， 而 后 
面 所 有 的 mbuf 有 108 字 节 的 存储 空间 。 在 本 例 中 的 两 个 nbuf 需 要 存储 150 字 节 的 数据 。 我 们 稍 
后 会 看 到 当 数 据 超过 208 字 节 时 ， 就 需要 3 个 或 更 多 的 mbuf。 有 一 种 不 同 的 技术 叫 “ 久 >， 一 种 
大 缓存 ， 典 型 的 有 1024 或 2048 字 节 。 

在 链表 的 第 一 个 mbuf 中 维护 一 个 带 有 总 长 度 的 分 组 首部 的 原因 是 ， 当 需要 总 长 度 时 可 以 
避免 查看 所 有 mbuf 中 的 m_1len 来 求 和 。 
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1.9.3 添加 IP 和 UDP 首部 


在 播 口 层 将 目标 插口 地 址 结构 复制 到 一 个 mbuf 中 ， 并 把 数据 复制 到 mbuf 链 中 后 ， 与 此 插 
口 描 述 符 ( 一 个 UDP 描 述 符 ) 对 应 的 协议 层 被 调用 。 明 确 地 说 ，UDP 输 出 例 程 被 调用 ， 指 向 
mbuf 的 指针 被 作为 一 个 参数 传递 。 这 个 例 程 要 在 这 150 字 节 数 据 的 前 面 添加 一 个 下 首部 和 一 个 
UDP 首 部 ， 然 后 将 这 些 mbuf 传 递 给 IP 输 出 例 程 。 

在 图 1-7 中 的 mbuf 链 表 中 添加 这 些 数 据 的 方法 是 分 配 另 外 一 个 mbuf， 把 它 放 在 链 首 ， 并 将 
分 组 首部 从 带 有 100 字 节 数 据 的 mbuf 复 制 到 这 个 mbuf。 在 图 1-8 中 显示 了 这 三 个 mbuf。 


mbuf{} 链 中 的 mbuf {} 


-个 mbuf 


mbuf {} 


链 中 的 下 一 个 mbuf 





—»m next 





m next 









m nextpkt NULL 














MT DATA 

M PKTHDR 

m pkthdr.len 178 mbuf 
) 分 组 首部 




















m pkthdr.rcvif|NULL 





100 字 节 的 数据 








28 字 节 用 于 IP 首 
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1-8. 在 图 1-7 中 的 mbuf 链 表 中 添加 另 一 个 带 有 IP 和 UDP 首 部 的 mbuf 


IP 首 部 和 UDP 首 部 被 放置 在 新 mbuf 的 最 后 ， 这 个 新 mbuf 就 成 了 整个 链表 的 首部 。 如 果 
需要 ， 它 允许 任何 其 他 低层 协议 (例如 接口 层 ) 在 IP 首 部 前 添加 自己 的 首部 ， 而 不 需要 再 复制 
IP 和 UDP 首部 。 在 第 一 个 mbuf 中 的 m_aata 指 针 指向 这 两 个 首部 的 起 始 位 置 ，m_1len 的 值 是 
28。 在 分 组 首部 和 IP 首 部 之 间 有 72 字 节 的 未 用 空间 留 给 以 后 的 首部 ， 通 过 适当 地 修改 
m_data 指 针 和 m_1en 添 加 在 IP 首 部 的 前 面 。 稍 后 我 们 会 看 见 以 太 网 首部 就 是 用 这 种 方法 建 
立 的 。 

注意 ， 分 组 首部 已 从 带 有 100 字 节 数 据 的 mbuf 中 移 到 新 mbuf 中 去 了 。 分 组 首部 必须 放 在 
mbuf 链 表 的 第 一 个 mbuf 中 。 在 移动 分 组 首部 的 同时 ， 在 第 一 个 mbuf 设 置 M_PKTHDR 标 志 并 且 
在 第 二 个 mbuf 中 清除 此 标志 。 在 第 二 个 mbuf 中 分 组 首部 占用 的 空间 现在 未 用 。 最 后 ， 在 此 分 
组 首部 中 的 长 度 成 员 由 于 增加 了 28 字 节 而 变 成 了 178。 

然后 UDP 输 出 例 程 填写 UDP 首 部 和 IP 首 部 中 它们 所 能 填写 的 部 分 。 例 如 ，IP 首 部 中 的 目 
标 地 址 可 以 被 设置 ， 但 IP 检 验 和 要 留 给 人 输出 例 程 来 计算 和 存放 。 

UDP 检验 和 计算 后 存储 在 UDP 首部 中 。 注 意 ， 这 要 求 遍 历 存 储 在 mbuf 链 表 中 的 所 有 150 字 
节 的 数据 。 这 样 ， 内 核 要 对 这 150 字 节 的 用 户 数据 做 两 次 遍历 : 一 次 是 把 用 户 缓存 中 的 数据 复 
制 到 内 核 中 的 mbuf 中 ， 而 现在 是 计算 UDP 检验 和 。 对 整个 数据 的 额外 遍历 会 降低 协议 的 性 能 ， 
在 后 续 章节 中 我 们 会 介绍 另 一 种 可 选 的 实现 技术 ， 它 可 以 避免 不 必要 的 遍历 。 

接着 ，UDP 输 出 例 程 调用 下 输出 例 程 ， 并 把 此 mbuf 链 表 的 指针 传递 给 I 人 P 输 出 例 程 。 
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1.9.4 “IP 输出 


IP 输 出 例 程 要 填写 IP 首 部 中 剩余 的 字段 ， 包 括 IP 检 验 和 ; 确定 数据 报应 发 到 哪个 输出 接口 
(这 是 正路 由 功能 ); 必要 有 时， 对 IP 报 文 分 片 ， 以 及 调用 接口 输出 函数 。 

假设 输出 接口 是 一 个 以 太 网 接口 ， 青 次 把 此 mbuf 链 表 的 指针 作为 一 个 参数 ， 调 用 一 个 通 
用 的 以 太 网 输出 函数 。 


1.9.5 以 太 网 输出 


以 太 网 输出 函数 的 第 一 个 功能 就 是 把 32 位 IP 地 址 转换 成 相应 的 48 位 以 太 网 地 址 。 在 使 用 
ARP( 地 址 解析 协议 ) 时 会 使 用 这 个 功能 ， 并 且 会 在 以 太 网 上 发 送 一 个 ARP 请 求 并 等 待 一 个 ARP 
应 答 。 此 时 ， 要 输出 的 mbuf 链 表 已 得 到 ， 并 等 待 应 答 。 

然后 以 太 网 输出 例 程 把 一 个 14 字 节 的 以 太 网 首部 添加 到 链表 的 第 一 个 mbuf 中 ， 紧 接 在 IP 
首部 的 前 面 (图 1-8)。 以 太 网 首部 包括 6 字 节 以 太 网 目标 地 址 、6 字 节 以 太 网 源 地 址 和 2 字 节 以 太 
网 帧 类 型 。 

之 后 此 mbnuf 链 表 被 加 到 此 接口 的 输出 队列 队 尾 。 如 果 接 口 不 忙 ， 接 口 的 “开始 输出 ” 例 
程 立 即 被 调用 。 车 接口 忙 ， 在 它 处 理 完 输出 队列 中 的 其 他 缓存 后 ， 它 的 输出 例 程 会 处 理 队 列 
中 的 这 个 新 mbuf。 

当 接口 处 理 它 输出 队列 中 的 一 个 mbuf 时 ， 它 把 数据 复制 到 它 的 传输 缓存 中 ， 并 且 开 始 输 
出 。 在 我 们 的 例子 中 ，192 字 节 被 复制 到 传输 缓存 中 : 14 字 节 以 太 网 首部 、20 字 节 IP 首 部 、8 
字 节 UDP 首部 及 150 字 节 用 户 数据 。 这 是 内 核 第 三 次 遍历 这 些 数据 。 一 旦 数据 从 mbuf 链 表 被 复 
制 到 设备 传输 缓存 ，mbuf 链 表 就 被 以 太 网 设备 驱动 程序 释放 。 这 三 个 mbuf 被 放 回 到 内 核 的 自 
由 缓存 池 中 。 


1.9.06 UDP 输出 小 结 


我 们 在 图 1-9 中 给 出 了 一 个 进程 调用 sendto 传 输 一 个 UDP 数据 报时 的 大 致 处 理 过 程 。 在 图 
中 我 们 说 明 的 处 理 过 程 与 三 层 内 核 代 码 (图 1-3) 的 关系 也 显示 出 来 了 。 


把 目标 播 口 地 址 结构 和 用 户 数 
据 (150 字 节 ) 复 制 到 mbuf 链 中 


以 太 网 输出 (ARP) 
设备 驱动 器 输出 





以 人 网 帧 
图 1-9 三 层 处 理 一 个 简单 UDP 输 出 的 执行 过 程 


———————M— 2 X P M 


函数 调用 控制 从 插口 层 到 UDP 输 出 例 程 ， 到 IP 输 出 例 程 ， 然 后 到 以 太 网 输出 例 程 。 每 个 
函数 调用 传递 一 个 指向 要 输出 的 mbuf 的 指针 。 在 最 低层 ， 设 备 驱动 程序 层 ，mbuf 链 表 被 放置 
到 设备 输出 队列 并 启动 设备 。 函 数 调 用 按 调 用 的 相反 顺序 返回 ， 最 后 系统 调用 返回 给 进程 。 
注意 ， 直 到 UDP 数据 报到 达 设 备 驱动 程序 前 ，UDP 数 据 没有 排队 。 高 层 仅仅 添加 它们 的 协议 
首部 并 把 mbuf 传 递 给 下 一 层 。. | 

这 时 ， 在 我 们 的 程序 示例 中 调用 recvfrom 去 读 取 服务 器 的 应 答 。 因 为 该 插口 的 输入 队列 是 
空 的 (假设 应 答 还 没有 到 达 )， 进 程 就 进入 睡眠 状态 。 


1.10 输入 处 理 


输入 处 理 与 刚 讲 过 的 输出 处 理 不 同 ， 因 为 输入 是 异步 的 。 就 是 说 ， 它 是 通过 一 个 接收 完 
成 中 断 驱 动 以 太 网 设备 驱动 程序 来 接收 一 个 输入 分 组 ， 而 不 是 通过 进程 的 系统 调用 。 内 核 处 
理 这 个 设备 中 断 ， 并 调度 设备 驱动 程序 进入 运行 状态 。 


1.10.1 以 太 网 输入 


以 太 网 设备 驱动 程序 处 理 这 个 中 断 ， 假 定 它 
表示 一 个 正常 的 接收 已 完成 ， 数 据 从 设备 读 到 
一 个 mbuf 链 表 中 。 在 我 们 的 例子 中 ， 接 收 了 54 
字 节 的 数据 并 复制 到 一 个 mbuf 中 : 20 字 节 IP 首 / 
部 、8 字 节 UDP 首 部 及 26 字 节 数 据 ( 服 务 器 的 时 间 | 
与 日 期 )。 图 1-10 所 示 的 是 这 个 mbuf 的 格式 。 | 

这 个 mbuf 是 一 个 分 组 首部 (m_flags 被 设置 | Z= 
成 M_PKTHDR), 它 是 一 个 数据 记录 的 第 一 个 mbuf。 | | 
分 组 首部 的 成 员 1en 包 含 数据 的 总 长 度 ,， 成 员 
rcvif 包 含 一 个 指针 ， 它 指向 接收 数据 的 接口 的 
接口 结构 (第 3 章 ) 。 我 们 可 以 看 到 成 员 rcvif 用 
于 接收 分 组 而 不 是 输出 分 组 (图 1-7 和 图 1-8)。 | 

mbuf 的 前 16 字 节 数 据 空间 被 分 配给 一 个 接 
口 层 首部 ， 但 没有 使 用 。 数 据 就 存储 在 这 个 
mbuf 中 ，54 字 节 的 数据 存储 在 剩余 的 84 字 节 的 空间 中 。 

设备 驱动 程序 把 mbuf 传 给 一 个 通用 以 太 网 输入 例 程 ， 它 通过 以 太 网 帧 中 的 类 型 字段 来 确 
定 哪个 协议 层 来 接收 此 分 组 。 在 这 个 例子 中 ， 类 型 字段 标识 一 个 IP 数 据 报 ， 从 而 mbuaf 被 加 入 
到 IP 输 入 队列 中 。 另 外 ， 会 产生 一 个 软 中 断 来 执行 IP 输 入 例 程 。 这 样 ， 这 个 设备 中 断 处 理 就 
完成 了 。 

1.10.2 IPRA 


IP 输 入 是 异步 的 ， 并 且 通 过 一 个 软 中 断 来 执行 。 当 接口 层 在 系统 的 一 个 接口 上 收 到 一 个 
IP 数 据 报时 ， 它 就 设置 这 个 软 中 断 。 当 IP 输 入 例 程 执行 它 时 ， 循 环 处 理 在 它 的 输入 队列 中 的 
每 一 个 IP 数 据 报 ， 并 在 整个 队列 被 处 理 完 后 返回 。 

IP 输 入 例 程 处 理 每 个 接收 到 的 于 数据 报 。 它 验证 IP 首 部 检验 和 ， 处 理 IP 选 项 ， 验 证 数据 报 














图 1-10 用 一 个 mbuf 存 储 输入 的 以 太 网 数据 
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被 传递 到 正确 的 主机 (通过 比较 数据 报 的 目标 IP 地 址 与 主机 IP 地 址 )， 并 当 系 统 被 配置 为 一 个 路 
由 器 ， 且 数据 报 被 表 注 为 其 他 的 人 P 地 址 时 ， 转 发 此 数据 报 。 如 果 IP 数 据 报到 达 它 的 最 终 目标 ， 
调用 IP 首 部 中 标识 的 协议 的 输入 例 程 : ICMP，IGMP，TCP 或 UDP。 在 我 们 的 例子 中 ， 调 用 
UDP 输入 例 程 去 处 理 UDP 数 据 报 。 


1.10.3 UDP 输入 


UDP 输入 例 程 验证 UDP 首部 中 的 各 字段 (长 度 与 可 选 的 检验 和 )， 然 后 确定 是 否 一 个 进程 应 
该 接收 此 数据 报 。 在 第 23 章 我 们 要 详细 讨论 这 个 检查 是 如 何 进行 的 。 一 个 进程 可 以 接收 到 一 
指定 UDP 端口 的 所 有 数据 报 ， 或 让 内 核 根据 源 与 目标 IP 地 址 及 源 与 目标 端口 号 来 限制 数据 报 
的 接收 。 

在 我 们 的 例子 中 ，UDP 输 入 例 程 从 一 个 全 局 变量 uab( 图 1-5) 开 始 ， 查 看 所 有 UDP 协议 控 
制 块 链表 ， 寻 找 一 个 本 地 端口 号 (inp_Lport) 与 接收 的 UDP 数据 报 的 目标 端口 号 匹配 的 协议 
控制 块 。 这 个 PCB 是 由 我 们 调用 socket 创 建 的 ， 它 的 成 员 inp_socket 指 向 相应 插口 结构 ， 
并 允许 接收 的 数据 在 此 插口 排队 。 

在 程序 示例 中 ， 我 们 从 未 为 应 用 程序 指定 本 地 问 口 号 。 在 习题 23.3 中 ， 我 们 会 看 

到 在 写 第 一 个 UDP 程序 时 创建 一 个 插口 而 不 绑 定 一 个 本 地 躺 口号 会 导致 内 核 自动 地 

给 此 插口 分 配 一 个 本 地 端口 号 ( 称 为 短期 端口 )。 这 就 是 为 什么 播 口 的 PCB 成 员 

inp_lport 不 是 一 个 空 值 的 原因 。 

因为 这 个 UDP 数据 报 要 传递 给 我 们 的 进程 ， 发 送 方 的 耳 地址 和 UDP 端口 号 被 放置 到 一 个 
mbuf 中 ， 这 个 mbuf 和 数据 (在 我 们 的 例子 中 是 26 字 节 ) 被 追加 到 此 插口 的 接收 队列 中 .图 1-11 
所 示 的 是 被 追加 到 这 个 插口 的 接收 队列 中 的 这 两 个 mbuf。 





























EE .— .Hbuf()  _ 指向 链 中 下 一 个 mbuf 的 指 甸 
ETE ae m next : 
fr 2 LAN V Rd 
BCRA NI m nextpkt NULL 
m len 16 
p m data pe ae 
| | m type W MT_SONAME | 
S m_flags 0 E J 
lied: 
Jt Je 1 Jj IPRb hb film ET m_pkthdr .rcvif| 指 向 接口 结构 的 指针 
| ERGNOD 
Vl 





图 1-11 发 送 方 地 址 和 数据 


比较 这 个 链表 中 的 第 二 个 mbuf(MT_DATA 类 型 ) 与 图 1-10 中 的 mbuf， 成 员 m_1en 和 
m_pkthgdr .1en 都 减 小 了 28 字 节 (20 字 节 的 IP 首 部 和 8 字 节 UDP 首 部 )， 并 且 指 针 m_Gata 也 减 
小 了 23 字 节 。 这 有 效 地 将 了 PP 和 UDP 首部 删 去 ， 只 保留 了 26 字 节 数 据 追 加 到 插口 接收 队列 。 
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在 链表 的 第 一 个 mbuf 中 包括 一 个 16 字 节 Internet 插 口 地 址 结构 ， 它 带 有 发 送 方 IP 地 址 和 
UDP 端 口号 。 它 的 类 型 是 MT_SONAME， 与 图 1-6 中 的 mbuf 类 似 。 这 个 mbuf 是 插口 层 创建 的 ， 
将 这 些 信 息 返 回 给 通过 调用 系统 调用 recvform 或 recvmsg 的 调用 进程 。 即 使 在 这 个 链表 的 
第 二 个 mbuf 中 有 空间 (16 字 节 ) 存 储 这 个 插口 地 址 结构 ， 它 也 必须 存放 到 它 自己 的 mbuf 中 ， 
为 它们 的 类 型 不 同 (一 个 是 MT_SONAME， 一 个 是 MT_DATA)。 

然后 接收 进程 被 唤醒 。 如 果 进 程 处 于 睡眠 状态 等 待 数据 的 到 达 ( 我 们 例子 中 的 情况 )， 进 程 
被 标志 为 可 运行 状态 等 待 内 核 的 调度 。 也 可 以 通过 select 系 统 调用 或 SIGIO 信 号 来 通知 进 
程 数 据 的 到 达 。 


1.10.4 进程 输入 


我 们 的 进程 调用 recvfrom 时 被 阻塞 ， 在 内 核 中 处 于 睡眠 状态 ， 现 在 进程 被 唤醒 。UPDP 
层 追 加 到 插口 接收 队列 中 的 26 字 池 的 数据 (接收 的 数据 报 ) 被 内 核 从 mbuf 复 制 到 我 们 程序 的 缓 
存 中 。 

注意 ， 我 们 的 程序 把 recvform 的 第 5S， 第 6 个 参数 设置 为 空 指针 ， 告 诉 系 统 在 接收 过 程 
中 不 关心 发 送 方 的 IP 地 址 和 UDP 端 口号 。 这 使 得 系统 调用 recvfrom 时 ， 上 略 过 链表 中 的 第 一 
个 mbuf( 图 1-11)， 仅 返回 第 二 个 mbuf 中 的 26 字 节 的 数据 。 然 后 内 核 的 recvfrom 代 码 释 放 图 1- 
11 中 的 两 个 mbuf， 并 把 它们 放 回 到 自由 mbuf 池 中 。 


1.11 网 络 实现 概述 ( 续 ) 


图 1-12 总 结 了 在 各 层 间 为 网 络 输入 输出 而 进行 的 通信 。 图 1-12 是 对 图 1-3 进 行 了 重 画 ， 它 
只 考虑 Internet 协 议 ， 并 且 强 调 层 间 的 通信 。 符 号 splnet 与 splimp 在 下 一 节 讨 论 。 
”我 们 使 用 复数 术语 插口 队列 (socket queues) 和 接口 队列 (interface queues), 因为 每 个 插口 





软件 中 断 @splnet | 
(由 接口 层 产 生 ) 
函数 调用 协议 队列 
来 启动 输出 (IP 输 入 队列 ) 
E: 便 件 中 断 &@splimp 
BIA (由 网 络 设备 产生 ) 


图 1-12 网 络 输入 输出 的 层 间 通信 
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和 每 个 接口 (以 太 网 、 环 回 、SLIP、PPP 等 ) 都 有 一 个 队列 ， 但 我 们 使 用 单数 术语 协议 队列 
(protocol queue)， 因 为 只 有 一 个 IP 输 入 队列 。 如 果 考 虑 其 他 协议 层 ， 我 们 就 会 有 一 个 队列 用 
于 XNS 协 议 ， 一 个 队列 用 于 OSI 协 议 。 


1.12 中 断 级 别 与 并 发 


我 们 在 1.10 节 看 到 网 络 代码 处 理 输 入 分 组 用 的 是 异步 和 中 断 驱 动 的 方式 。 首 先 ， 一 个 设备 
中 断 引 发 接口 层 代 码 执行 ， 然 后 它 产生 一 个 软 中 断 引 发 协议 层 代码 执行 。 当 内 核 完成 这 些 级 
别 的 中 断后 ， 执 行 插口 代码 。 

在 这 里 给 每 个 硬件 和 软件 中 断 分 配 一 个 优先 级 。 图 1-13 所 示 的 是 8 个 优先 级 别 的 顺序 ， 从 
最 低级 别 (不 阻塞 中 断 ) 到 最 高 级 别 (阻塞 所 有 中 断 )。 


spl0 正常 操作 方式 ， 不 阻塞 中 断 (最 低 优先 级 ) 
Splsoftclock , 低 优 先 级 时 钟 处 理 
网 络 协议 处 理 


终端 输入 输出 


| 磁盘 与 磁带 输入 输出 
网 络 设备 输入 输出 
高 优先 级 时 钟 处 理 
阻塞 所 有 中 断 (最 高 优先 级 ) 








图 1-13 阻塞 所 选中 断 的 内 核 函数 


[Leffler et al. 1989] 的 表 4-5 显 示 了 用 于 VAX 实 现 的 优先 级 别 。386 的 Net/3 的 实现 
使 用 图 1-13 所 示 的 8 个 函数 ,但 splsoftclock 与 splnet 在 同一 级 别 ，splclock 
与 splhigh 也 在 同一 级 别 。 

用 于 网 络 接口 级 的 名 称 imp 来 自 于 缩写 IMP( 接 口 报 文 处 理 器 )， 它 是 在 ARPANET 
中 使 用 的 路 由 器 的 最 初 类 型 。 

不 同 优先 级 的 顺序 意味 着 高 优先 级 中 断 可 以 抢占 一 个 低 优 先 级 中 断 。 看 图 1-14 所 示 的 事 
被 抢占 


被 抢占 


sp10 插口 | 











splnet i 


协议 (IP 输 入 ) 


spltty 
; 以 大 网 设备 


step 1 2 3 4 5 6 7 


图 1-14 优先 级 示例 与 内 核 处 理 
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件 顺 序 。 

1) 当 播 口 层 以 级 别 sp10 执 行 时 ， 一 个 以 太 网 设备 驱动 程序 中 断 发 生 ， 使 接 只 层 以 级 别 
splimp 执 行 。 这 个 中 断 抢占 了 插口 层 代码 的 执行 。 这 就 是 异步 执行 接口 输入 例 程 。 

2) 当 以 太 网 设备 驱动 程序 在 运行 时 ， 它 把 一 个 接收 的 分 组 放置 到 IP 输 出 队列 中 并 调度 一 
个 splnet 级 别 的 软 中 断 。 软 中 断 不 会 立即 有 效 ， 因 为 内 核 正 在 一 个 更 高 的 优先 级 (splimp) 
上 运行 。 

3) 当 以 太 网 设备 驱动 程序 完成 后 ， 协 议 层 以 级 别 splnet 执 行 。 这 就 是 异步 执行 正 输入 例 程 。 

4) 一 个 终端 设备 中 断 发 生 ( 完 成 一 个 SLIP 分 组 )， 它 立即 被 处 理 ， 抢 占 协 议 层 ， 因 为 终端 
输入 导出 (sp1t cy) 优先 级 比 图 1-13 中 的 协议 层 (sp7net) 更 高。 

5) SLIP 驱 动 程序 把 接收 的 分 组 放 到 IP 输 入 队列 中 并 为 协议 层 调 度 另 一 个 软 中 断 。 

6) 当 SLIP 驱 动 程序 结束 时 ， 被 抢占 的 协议 层 继续 以 级 别 splnet 执 行 ， 处 理 完 从 以 太 网 设备 
驱动 程序 收 到 的 分 组 后 ， 处 理 从 SLIP 驱 动 程序 接收 的 分 组 .。 仅 当 没 有 其 他 输入 分 组 要 处 理 时 ， 
它 会 把 控制 权 交 还 给 被 它 抢占 的 进程 (在 本 例 中 是 插口 层 )。 

7) 播 口 层 从 它 被 中 断 的 地 方 继续 执行 。 

对 于 这 些 不 同 优先 级 ， 一 个 要 关心 的 问题 就 是 如 何 处 理 那 些 在 不 同 级 别 的 进程 间 共享 的 
. 插口 队列 、 接 口 队 
列 和 协议 队列 。 例 如 ， 当 IP 输 入 例 程 正在 从 它 的 输入 队列 中 取出 一 个 接收 的 分 组 时 ， 一 个 设 
备 中 断 发 生 ， 抢 占 了 协议 层 ， 并 且 那 个 设备 驱动 程序 可 能 添加 另 一 个 分 组 到 IP 输 入 队列 。 这 
些 共 享 的 数据 结构 (本 例 中 的 下 输入 队列 ， 它 共享 于 协议 层 和 接口 层 )， 如 果 不 协 调 对 它们 的 访 
人 问 ， 可 能 会 破坏 数据 的 完整 性 。 

Net3 的 代码 经 常 调用 函数 sp1imp 和 splnet。 这 两 个 调用 总 是 与 spIx 成 对 出 现 ，spP1x 
使 处 理 器 返回 到 原来 的 优先 级 。 例 如 下 面 这 段 代 码 ， 被 协议 层 IP 输 入 图 数 执行 ， 去 检查 是 否 
有 其 他 分 组 在 它 的 输入 队列 中 等 待 处 理 : 


struct mbuf *m; 





int s; 
s = splimp (); 
IF DEQUEUE (&ipintrq, m); 
splx(s); `- 
if (m == O0) 
return; 


调用 splimp 把 CPU 的 优先 级 升 高 到 网 络 设备 驱动 程序 级 ， 防 止 任何 网 络 设备 驱动 程序 中 断 发 
生 。 原 来 的 优先 级 作为 函数 的 返回 值 存储 到 变量 s 中 。 然 后 执行 宏 IF_DEQUEUE 把 一 输入 队列 
(ipintrq) 头 部 的 第 二 个 分 组 删 去 ， 并 把 指向 此 mbuf 链 表 的 指针 放 到 变量 m 中 。 最 后 ， 通 过 
调用 带 有 参数 s( 其 保存 着 前 面 调用 sp1imp 的 返回 值 ) 的 spl1x，CPU 的 优先 级 恢复 到 调用 
splimp 前 的 级 别 。 

由 于 在 调用 sp1imp 和 sp1x 之 间 所 有 的 网 络 设备 驱动 程序 的 中 断 被 禁止 ， 在 这 两 个 调用 
间 的 代码 应 尽 可 能 的 少 。 如 果 中 断 被 禁止 过 长 的 时 间 ， 其 他 设备 会 被 忽略 ， 数 据 会 被 丢失 。 
因此 ， 对 变量 mm 的 测试 (看 是 否 有 其 他 分 组 要 处 理 ) 被 放 在 调用 sp1x 之 后 而 不 是 之 前 。 

当 以 太 网 输出 例 程 把 一 个 要 输出 的 分 组 放 到 一 个 接口 队列 ， 并 测试 接口 当前 是 否 忙 时 ， 
车 接口 不 忙 则 启动 接口 ， 这 时 例 程 需要 调用 这 些 spl 调 用 。 
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struct mbuf  *m; 
int s; 
S - splimp(); 
/* 
* Queue message on interface, and start output if interface not active. 


* 
/ 
if (IF QFULL(&ifp-»if snd)) ( 
IF. DROP(&ifp-»if snd); /* queue is full, drop packet */ 
splx(s); 
error = ENOBUFS; 
goto bad; 
} 
IF ENQUEUE(&ifp-»if snd, m); /* add the packet to interface queue */ 
if ((ifp-»-if flags & IFF OACTIVE) == 0) 
(*ifp-»if, start) (ifp); /* start interface */ 
splxí(s); 


在 这 个 例子 中 ， 设 备 中 断 被 禁止 的 原因 是 防止 在 协议 层 正 在 往 队 列 添加 分 组 时 ， 设 备 驱 
动 程序 从 它 的 发 送 队 列 中 取 走 下 一 个 分 组 。 设 备 发 送 队 列 是 一 个 在 协议 层 和 接口 层 共 享 的 数 
据 结构 。 

在 整个 源 代码 中 到 处 都 会 看 到 spl 函 数 。 
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图 1-15 所 示 的 是 Net/3 网 络 源 代 码 的 组 织 ， 假 设 它 位 于 目录 /usr/src/sys。 
Intel 80x86 专 用 
通用 内 核 
通用 联网 
HDLC, X.25 
TCP/IP 协 议 
DD os 
XNS 协 议 
NFS 
内 核 头 文件 


文件 系统 


虚拟 存储 器 
图 1-15 Net/3 源 代码 组 织 
本 书 的 重点 在 目录 netinet， 它 包含 所 有 TCP/IP 源 代码 。 在 目录 kern 和 和 net 中 我 们 也 可 
找到 一 些 文件 。 前 者 是 协议 无 关 的 插口 代码 ， 而 后 者 是 一 些 通用 联网 函数 ， 用 于 TCP/AP 例 程 ， 
如 路 由 代码 。 
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包含 在 每 个 目录 中 的 文件 简要 地 列 于 下 面 : 

。i386: 因 特 80x86 专 用 目录 。 例 如 ， 目 录 i386/isa 包 含 专用 于 ISA 总 线 的 设备 驱动 程 
序 。 目 录 i386/stand 包 含 单机 引导 程序 代码 。 

*kern: 通用 的 内 核 文件 ， 不 属于 其 他 目录 。 例 如 ， 处 理 系统 调用 fork 和 exec 的 内 核 
文件 在 这 个 目录 。 在 这 个 目录 中 ， 我 们 只 考察 少数 几 个 文件 一 一 用 于 插口 系统 调用 的 文 
件 (插口 层 在 图 1-3)。 

enet: 通用 联网 文件 ， 例 如 ， 通 用 联网 接口 函数 ，BPF(BSD 分 组 过 滤器 ) 代 码 、SLIP 斐 
动 程序 和 路 由 代码 。 在 这 个 目录 中 我 们 考察 一 些 文件 。 

*netccitt: OSI 协议 接口 代码 ， 包 括 HDLC( 高 级 数据 链 路 控制 ) 和 X.25 驱 动 程序 。 

*netinet: Internet 协 议 代 码 : IP，ICMP，IGMP，TCP 和 UDP。 本 书 的 重点 集中 在 这 
个 目录 中 的 文件 。 

*netiso: OSI 协议 。 

* netns: 施乐 (Xerox)XNS 协 议 。 

*nfs: SUN 公 司 的 网 络 文件 系统 代码 。 

。sys: 系统 头 文件 。 在 这 个 目录 中 我 们 考察 几 个 头 文件 。 这 个 目录 中 的 文件 还 出 现在 目 
录 /usr/include/sys 中 。 

*ufs: Unix 文 件 系统 的 代码 ， 有 时 叫 伯克利 快速 文件 系统 。 它 是 标准 磁盘 文件 系统 。 

evm: 虚拟 存储 器 系统 代码 。 

图 1-16 所 示 的 是 源 代 码 组 织 的 另 一 种 表现 形式 ， 它 映射 到 我 们 的 三 个 内 核 层 。 忽 略 

netimp 和 nfs 这 样 的 目录 ， 在 本 书 中 我 们 不 关心 它们 。 





" 插 11 层 
kern/uipc mbuf.c 
4000 行 C 代 码 
net/ netinet/ netns/ netiso/ kern/ iy ES 
a - 协议 层 
选 路 (TCP/IP) (XNS) (OSD) (Unix 域 ) 
2 100 13 000 6 000 26 000 750 





net/bpf* 以 太 网 设备 


net/if sl* | net/if loop 
(SLIP) (boopback) 





net/ . 
500 1 750 250 2 000 1 000 每 驱动 程序 


图 1-16 映射 到 三 个 内 核 层 的 NeV3 源 代码 组 织 


在 每 个 表格 框 底下 的 数字 是 对 应 功能 的 C 代 码 的 近似 行 数 ， 包 括 源 文件 中 的 所 有 注释 。 
我 们 不 考察 图 中 所 有 的 源 代码 。 显 示 目 录 netns 与 netiso 是 为 了 与 Internet 协 议 比较 。 
我 们 仅 考虑 有 阴影 的 表格 框 。 


1.14 测试 网 络 
图 1-17 所 示 的 测试 网 络 用 于 本 书 中 所 有 的 例子 。 除 了 在 图 顶部 的 主机 vangogh， 所 有 的 
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IP 地 址 属于 B 类 网 络 地 址 140.252， 并 且 所 有 主机 名 属于 域 .tuc .noao.edu (noaoftX “H 
家 光学 天 文 台 ”，tuc 代 表 Tucson)。 例 如 ， 在 右 下 角 的 系统 的 主机 全 名 是 svr4 .tuc .noao. 
edu，IP 地 址 是 140.252.13.34。 在 每 个 框图 项 上 的 记号 是 运行 在 此 系统 上 操作 系统 的 名 称 。 

在 图 顶 的 主机 的 全 名 是 vangogh .cs .berkeley .edu， 其 他 主机 通过 Internet 可 以 连接 
到 它 。 

这 个 图 与 卷 1 中 的 测试 网 络 几乎 一 样 ， 有 一 些 操作 系统 升级 了 ， 在 sun 与 netb 之 间 的 拨号 
链 路 现在 用 PPP 取 代 了 SLIP。 另 外 ， 我 们 用 Net/3 网 络 代码 代替 了 BSD/386 V1.1 提 供 的 Net/2 
网 络 代 码 。 

4.4BSD-Lite 


vangogh 


| 128.32.33.5 


AIX 3.2.2 Solaris 2.3 SunOS 4.1.3 .104.1 









Bolaris 


二 进 制 遥测 系统 
NetBlazer 


BSD/386 1.1 


"mE 


图 1-17 用 于 本 书 中 所 有 例子 的 测试 网 络 
1.15 小 结 


本 章 是 对 Net/3 网 络 代码 的 概述 。 通 过 一 个 简单 的 程序 示例 (图 1-2) 一 一 发 送 一 个 UDP 数 据 
报 给 一 个 日 期 时 间 服 务 器 并 接收 应 答 ， 我 们 分 析 了 通过 内 核 进行 输入 输出 的 过 程 。mbuf 中 保 
存 要 输出 的 信息 和 接收 的 下 数据 报 。 下 一 章 我 们 要 查看 mbuf 的 更 多 细 市 。 

当 进 程 执行 sendto 系 统 调用 时 ， 产 生 UDP 输 出 ， 而 IP 输 入 是 异步 的 。 当 一 个 设备 驱动 程 
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序 接收 了 一 个 下 数据 报 ， 数 据 报 被 放 到 IP 输 入 队列 中 并 县 产生 一 个 软 中 断 使 了 输入 函数 执行 。 
我 们 考察 了 在 内 核 中 用 于 联网 代码 的 不 同 中 断 级 别 。 由 于 很 多 联网 数据 结构 被 不 同 的 层 所 夫 
享 ， 而 这 些 层 在 不 同 的 中 断 级 别 上 执行 ， 因 此 当 访 问 或 修改 这 些 共 享 结 构 时 要 特别 小 心 。 儿 
平 所 有 我 们 要 查看 的 函数 中 都 会 遇 到 spl 函 数 。 
本 章 结束 时 我 们 查看 了 Net/3 源 代码 的 整个 组 织 结构 ， 及 本 书 关注 的 代码 。 
习题 
1.1 输入 程序 示例 (图 1-2) 并 在 你 的 系统 上 运行 。 如 果 你 的 系统 有 系统 调用 跟踪 能 力 ， 如 
trace (SunOS 4.x), truss (SVR4) 或 ktrace (4.4BSD)， 用 它 检测 本 例 中 调用 的 
系统 调用 。 


1.2 在 1.12 节 调用 IF_DEQUEUE 的 例子 中 ， 我 们 注意 到 调用 splimp 来 防止 网 络 设备 驱动 
程序 的 中 断 。 当 以 太 网 驱动 程序 以 这 个 级 别 执行 时 ，SLIP 驱 动 程序 会 发 生 什么 ? 


第 2 章 mbuf: 存储 器 缓存 


2.1 引言 


网 络 协议 对 内 核 的 存储 器 管理 能 力 提 出 了 很 多 要 求 。 这 些 要 求 包括 能 方便 地 操作 可 变 长 
组 在， 能 在 缓存 头 部 和 尾部 添加 数据 (如 低层 封装 来 自 高 层 的 数据 )， 能 从 缓存 中 移 去 数据 (如 ， 
当 数 据 分 组 向 上 经 过 协议 栈 时 要 去 掉 首 部 )， 并 能 尽量 减少 为 这 些 操作 所 做 的 数据 复制 。 内 核 
中 的 存储 器 管理 调度 直接 关系 到 联网 协议 的 性 能 。 

在 第 1 章 我 们 介绍 了 普遍 应 用 于 Net/3 内 核 中 的 存储 器 缓存 :mbuf， 它 是 “memory buffer" 
的 缩写 。 在 本 章 ， 我 们 要 查看 mbuf 和 内 核 中 用 于 操作 它们 的 函数 的 更 多 的 细节 ， 在 本 书 中 几 
乎 每 一 页 我 们 都 会 遇 到 mbuf。 要 理解 本 书 的 其 他 部 分 必须 先 要 理解 mbuf。 

mbuf 的 主要 用 途 是 保存 在 进程 和 网 络 接口 间 互相 传递 的 用 户 数据 。 但 mbuf 也 用 于 保存 其 
他 各 种 数据 : 源 与 目标 地 址 、 播 口 选 项 等 等 。 

图 2-1 显 示 了 我 们 要 遇 到 的 四 种 不 同类 型 的 mbuf， 它 们 依据 在 成 员 m_f1ags 中 填写 的 不 
同 标志 M_PKTHDR 和 M_ExXT 而 不 同 。 图 2-1 中 四 个 mbuf 的 区 别 从 左 到 右 罗列 如 下 : 

1) 如 果 m_f1lags 等 于 0，mbuf 只 包含 数据 。 在 mbuf 中 有 108 字 节 的 数据 空间 (m_dat 数 组 )。 

指针 m_data 指 向 这 108 字 节 缓 存 中 的 某 个 位 置 。 我 们 所 示 的 m_qdata 指 向 缓存 的 起 始 ， 
但 它 能 指向 缓存 中 的 任意 位 置 。 成 员 m_1len 指 示 了 从 m_data 开 始 的 数据 的 字 节 数 。 
图 1-6 是 这 类 mbuf 的 一 个 例子 。 
在 图 2-1 中 ， 结 构 m_hdar 中 有 六 个 成 员 ， 它 的 总 长 是 20 字 节 。 当 我 们 查看 此 结构 的 C 语 
言 定 义 时 ， 会 看 见 前 四 个 成 员 每 个 占用 4 字 节 而 后 两 个 成 员 每 个 占用 2 字 节 。 在 图 2-1 中 
我 们 设 有 区 分 4 字 节 成 员 和 2 字 节 成 员 。 

2) 第 二 类 mbuf 的 m_f1lags 值 是 M_PKTHDR， 它 指示 这 是 一 个 分 组 首部 ， 描 述 一 个 分 组 数 
据 的 第 一 个 mbuf。 数 据 仍然 保存 在 这 个 mbuf 中 ， 但 是 由 于 分 组 首部 占用 了 8 字 节 ， 只 
有 100 字 节 的 数据 可 存储 在 这 个 mbuf 中 (在 m_pktdat 数 组 中 )。 图 1-10 是 这 种 mbuf 的 一 
个 例子 。 1 
成 员 m_pkthdr .1en 的 值 是 这 个 分 组 的 mbuf 链 表 中 所 有 数据 的 总 长 度 : 即 所 有 通过 
m_next 指 针 链 接 的 mbuf 的 m_1len 值 的 和 ， 如 图 1-8 所 示 。 输 出 分 组 没有 使 用 成 员 
m_pkthdr.rcvif， 但 对 于 接收 的 分 组 ， 它 包含 一 个 指向 接收 接口 1fnet 结 构 ( 图 3- 
6) 的 指针 。 

3) 下 一 种 mbuf 不 包含 分 组 首部 (没有 设置 K_PKTHDR)， 但 包含 超过 208 字 节 的 数据 ， 这 时 
用 到 一 个 叫 “ 徐 ”的 外 部 缓存 (设置 4_EXT)。 在 此 mbuf 中 仍然 为 分 组 首部 结构 分 配 了 
空间 ， 但 没有 用 一 一 在 图 2-1 中 ， 我 们 用 阴影 显示 出 来 。Net/3 分 配 一 个 大 小 为 1024 或 
2048 字 节 的 徐 ， 而 不 是 使 用 多 个 mbuf 来 保存 数据 (第 一 个 带 有 100 字 节 数 据 ， 其 余 的 每 
个 带 有 108 字 节 数 据 }。 在 这 个 mbuf 中 ， 指 针 m_data 指 向 这 个 比 中 的 某 个 位 置 。 

Net3 版 本 支持 七 种 不 同 的 结构 。 定 义 了 四 种 1024 字 节 的 化 (惯例 值 )， 三 种 2048 字 节 的 
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位。 传统 上 用 1024 字 节 的 原因 是 为 了 节约 存储 器 : Mm REGII NE2048, HTAA 
分 组 (最 大 1500 字 节 )， 每 个 簇 大 约 有 四 分 之 一 没有 用 。 在 27.5 节 中 我 们 会 看 到 Net3 
TCP 发 送 的 每 个 TCP 报 文 段 从 来 不 超过 一 簇 大 小 ， 因 为 当 徐 的 大 小 为 1024 时 ， 每 个 
1500 字 节 的 以 太 网 帧 儿 乎 三 分 之 一 未 用 。 但 是 [Mogul 1993， 图 15-15] 显 示 了 当 在 以 太 
网 中 发 送 最 大 帧 而 不 是 1024 字 节 的 帧 时 能 明显 提高 以 太 网 的 性 能 。 这 就 是 -- 种 性 能 / 存 
储 器 互 换 。 老 的 系统 使 用 1024 字 节 乱 来 节约 存储 器 ， 而 拥有 廉价 存储 器 的 新 系统 用 
2048F TRU SEE SE ESPERE. EAS Ao b Be BUE — E KU E2048 3: T5. 


mbufí) mbuf {} mbuf{} mbuf{} 

















| |n next 1 
| | | m nextpkt 
0-108 0-100 SEA 208-2048 |m len m hdrí() 
— s ? (QUSE) 






































MT xxx MT xxx MT xxx m type 
0 | M.PKTHDR M.PKTHDR | flags 
二 M -L.IL-LALExT | 二 
| m pkthdr.len ` 
5 pkthár () 
L m pkthdr.rcvif BET) 
- A - 
(T m ext.ext buf 
m ext.ext free jm extí) 














m ext.ext size 


PRI. 
缓存 : ZH: 
m.pktdat 


























2048 字 节 的 短 | 
(外 部 缓存 ) 






图 2-1 根据 不 同 m_flags 值 的 四 种 不 同类 型 的 mbuf 


不 幸 的 是 ， 我 们 所 说 的 “ 藉 (cluster)” 用 过 不 同 的 名 字 。 常 量 MCLBYTES 是 这 些 
5£ 4(1024 8,2048) 9 kh, HER ARM EET XMCLGET, MCLALLOC $e 
MCLFREE, iX 3L Xp fp ZOMRCEdU4 “R” HRA., PATNA Zl mbuft ds Et 
M_EXT， 它 代表 “外 部 的 ”缓存 。 最 后 ，[Leffler et al. 1989] 称 它们 为 映射 页 (mapped 
page)。 这 上 后 一 种 称 法 来 源 于 它们 的 实现 ， 在 2.9 节 我 们 会 看 到 当 要 求 一 个 副本 时 ， 这 
些 簇 是 可 以 共享 的 。 

我 们 可 能 会 希望 这 种 类 型 的 mbuf 的 m_1len 的 最 小 值 是 209 而 不 是 我 们 在 图 中 所 示 
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的 208。 这 是 指 ，208 字 节 数 据 的 记录 是 可 以 存放 在 两 个 mbuf 中 的 ， 第 一 个 mbuf 存 放 

100 字 节 ， 第 二 个 mbuf 存 放 108 字 节 。 但 在 源 代 码 中 有 一 个 差错 : 若 超过 或 等 于 208 就 

分 配 一 个 该 。 

4) 最 后 一 类 mbuf 包 含 一 个 分 组 首部 ， 并 包含 超过 208 字 节 的 数据 。 同 时 设置 了 标志 
M_PKTHDR 和 M_EXT。 

对 于 图 2-1， 我 们 还 有 另外 几 点 需要 说 明 : 

。mbuf 结 构 的 大 小 总 是 128 字 节 。 这 意味 着 图 2-1 右 边 两 个 mbuf 在 结构 m_ext 后 面 的 未 用 
空间 为 88 字 节 (128-20--8-12)。 

。 既 然 有 些 协议 (例如 UDP) 人 允许 零 长 记录 ， 当 然 就 可 以 有 m_1len 为 0 的 数据 缓存 。 

* 在 每 个 mbuf 中 的 成 员 m_data 指 向 相应 缓存 的 开始 (mbuf 缓 存 本 身 或 一 个 徐 )。 这 个 指针 
能 指向 相应 缓存 的 任意 位 置 ， 不 一 定 是 起 始 。 











m, pkthdr.len 192 mbuf 
m pkthdr.rcvif|NULL 分 组 首部 


50 字 的 数据 





100 字 节 的 数据 


以 大 网 首部 ，IP 
首部 ，TCP 首 部 








2048 字 节 的 簇 
EEE" 


1460 字 节 的 数据 







MT_HEADER 
M PKTHDR 

1514 mbuf 
NULL 分 组 首部 








m, pkchdr.len 


m pkthdr.rcvif 
SNO URN 













m ext.ext size 



















LAMER. IP 
首部 ，TCP 首 部 


2048 





图 2-2 在 一 个 队列 中 的 两 个 分 组 : 第 一 个 带 有 192 字 节 数 据 ， 第 二 个 带 有 1514 字 节 数 据 


m 
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. HE SE mbuf E dE tS 2E EB ttGHbhbE(Q. ext.ext, bu £f E Am ext.ext size). 

我 们 在 本 书 采用 的 大 小 为 2048。 成 员 m_data 和 m_ext .ext_buf 值 是 不 同 的 (如 我 们 所 

示 )， 除 非 m_adata 也 指向 缓存 的 第 一 个 字 节 。 结 构 m_ext 的 第 三 个 成 员 ext_free， 

Net/3 当 前 未 用 。 

。 指 针 m_next 把 mbuf 链 接 在 一 起 ， 把 一 个 分 组 (记录 ) 形 成 一 条 mbuf 链 表 ， 如 图 1-8 所 示 。 

。 指 针 m_nextpkt 把 多 个 分 组 (记录 ) 链 接 成 一 个 mbuf 链 表 队 列 。 在 队列 中 的 每 个 分 组 可 

以 是 一 个 单独 的 mbuf， 也 可 以 是 一 个 mbuf 链 表 。 每 个 分 组 的 第 一 个 mbuf 包 含 一 个 分 组 

首部 。 如 果 多 个 mbuf 定 义 一 个 分 组 ， 只 有 第 一 个 mbuf 的 成 员 m_nextpkt 被 使 用 一 一 链 

表 中 其 他 mbuf 的 成 员 m_nextpkt 全 是 空 指针 。 

图 2-2 所 示 的 是 在 一 个 队列 中 的 两 个 分 组 的 例子 。 它 是 图 1-8 的 一 个 修改 版 。 我 们 已 经 把 
UDP 数 据 报 放 到 接口 输出 队列 中 (显示 出 14 字 节 的 以 太 网 首部 已 经 添加 到 链表 中 第 一 个 mbuf 的 
IP 首 部 前 面 )， 并 且 第 二 个 分 组 已 经 被 添加 到 队列 中 : TCP 段 包含 1460 字 节 的 用 户 数据 。TCP 
数据 包含 在 一 个 徐 中 ， 并 且 有 一 个 mbuf 包 含 了 它 的 以 太 网 、IP 与 TCP 首 部。 通过 这 个 徐 ， 我 
们 可 以 看 到 指向 徐 的 数据 指针 (m_dqata) 不 需要 指向 徐 的 起 始 位 置 。 我 们 所 示 的 队列 有 一 个 头 
指针 和 一 个 尾 指 针 。 这 就 是 Net/3 处 理 接口 输出 队列 的 方法 。 我 们 给 有 M_EXT 标 志 的 mbuf 还 添 
加 了 一 个 m_ext 结 构 ， 并 且 用 阴影 表示 这 个 mbuf 中 未 用 的 pkthdr 结 构 。 


带 有 UDP 数据 报 分 组 首部 的 第 一 个 mbuf 的 类 型 是 MT_DATA， 但 带 有 TCP 报 文 段 
分 组 首部 的 第 一 个 mbuf 的 类 型 是 MT_HEADER。 这 是 由 于 UDP 和 TCP 采 用 了 不 同 的 方 
式 往 数据 中 添加 首部 造成 的 ， 但 没有 什么 不 同 。 这 两 种 类 型 的 mbuf 本 质 上 一 样 。 链 
表 中 第 一 个 mbuf 的 m_flags 的 值 M_PKTHDR 指 示 了 它 是 一 个 分 组 首部 。 

仔细 的 读者 可 能 会 注意 到 我 们 显示 一 个 mbuf 的 图 (Net/3 mbuf， 图 2-1) 与 显示 一 个 
Net/1 mbuf 的 图 [Leffler et al. 1989，p.290] 的 区 别 。 这 个 变化 是 在 NeU2 中 造成 的 : 添 
加 了 成 员 m_flags， 把 指针 m_act 改 名 为 m_nextPkt， 并 把 这 个 指针 移 到 这 个 
mbuf 的 前 面 。 

在 第 一 个 mbuf 中 ，UDP 与 TCP 协 议 首部 位 置 的 不 同 是 由 于 UDP 调用 M_PREPEND 
(图 23-1$5 和 习题 23.1) 而 TCP 调 用 MGETHDR( 图 26-25) 造 成 的 。 


2.2 代码 介绍 
mbuf 函 数 在 一 个 单独 的 C 文 件 中 ， 并 且 mbuf 宏 与 各 种 mbuf 定 义 都 在 一 个 单独 的 头 文件 中 ， 


如 图 2-3 所 示 。 
x 5 
mbuf 结 构 、mbuf 宏 与 定义 


图 2-3 本 章 讨论 的 文件 











2.2.1 全 局 变量 
在 本 章 中 有 一 个 全 局 变量 要 介绍 ， 如 图 2-4 所 示 。 
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数据 类 型 
mbuf 的 统计 信息 (图 2-5) 


图 2-4 本 章 介 绍 的 全 局 变量 






2.2.2 统计 
在 全 局 结构 mbs tat 中 维护 的 各 种 统计 ， 如 图 2-5 所 示 。 


m clfree FB 

m clusters M vi nb rp Xx 6 S 

m drain 调用 协议 的 drain 函 数 来 回收 空间 的 次 数 
m drops 寻找 空间 (未 用 ) 失 败 的 次 数 

m mbufs 从 页 池 ( 未 用 ) 中 获得 的 mbuf 数 

m mtypes[256] 当前 mbuf 的 分 配 数 : MT_xxx 索 引 

m spare 剩余 空间 (未 用 ) 

m wait 等 待 空间 (未 用 ) 的 次 数 


图 2-5 在 结构 mbstat 中 维护 的 mbuf 统 计 


这 个 结构 能 被 命令 netstat -m 检 测 ; 图 2-6 所 示 的 是 一 些 输出 示例 。 关于 所 用 映射 页 的 数 
量 的 两 个 值 是 : m clusters (34) 减 m_clfree (32) 一 一 当前 使 用 的 矮 数 (2) 和 m_clusters(34)。 

分 配给 网 络 的 存储 器 的 千 字 节 数 是 mbuf 存 储 器 (99 x 12877 T5). E 3 4r fit as 34 x 2048 字 
节 ) 再 除 以 1024。 使 用 百分比 是 mbuf 存 储 器 (99 x 128 字 节 ) 加 上 所 用 徐 的 存储 器 (2 x 2048 字 市 ) 
除 以 网 络 存储 器 总 数 (80 千 字 节 )， 再 乘 100。 


sbstat member 


99 mbufs in use: 
1 mbufs allocated to data m mtypes [MT DATA] 
43 mbufs allocated to packet headers m mtypes[MT, HEADER] 
17 mbufs allocated to protocol control blocks m mtypes [MT, PCB] 
20 mbufs allocated to socket names and addresses | m mtypes [MT SONAME] 





18 mbufs allocated to socket options m mtypes[MT SOOPTS] 
2/34 mapped pages in use . (see text) 
80 Kbytes allocated to network (20$ in use) (see text) 
0 requests for memory denied m drops 
0 requests for memory delayed m wait 
0 calls to protocol drain routines m drain 





图 2-6 mbuf 统 计 例 子 


2.2.8 内核 统计 


mbuf 统 计 显示 了 在 Net/3 源 代码 中 的 一 种 通用 技术 。 内 核 在 一 个 全 局 变量 (在 本 例 中 是 结构 
mbstat) 中 保持 对 某 些 统计 信息 的 跟踪 。 当 内 核 在 运行 时 ， 一 个 进程 (在 本 例 中 是 netstat 程 
序 ) 可 以 检查 这 些 统计 。 

不 是 提供 系统 调用 来 获取 由 内 核 维护 的 统计 ， 而 是 进程 通过 读 取 链接 编辑 器 在 内 核 建 立 
时 保存 的 信息 来 获得 所 关心 的 数据 结构 在 内 核 中 的 地 址 。 然 后 进程 调用 函数 kvm (3)， 通 过 使 
用 特殊 文件 /dev/mem 读 取 在 内 核 存储 器 中 的 相应 位 置 。 如 果 内 核 数 据 结构 从 一 个 版 本 改变 


LN 
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为 下 一 版 本 ， 任 何 读 取 这 个 结构 的 程序 也 必须 改变 。 
2.3 mbuf 的 定义 


处 理 mbuf 时 ， 我 们 会 反复 遇 到 几 个 常量 。 它 们 的 值 显 示 在 图 2-7 中 。 除 了 MCLBYTESs 定 义 
在 文件 /usr/incliude/machine/param.h 中 外 ， 基 他 所 有 常量 都 定义 在 文件 mbuf .hp 中。 


Te 


MCLBYTES 
MHLEN 


MINCLSIZE 
MLEN 
MSIZE 


图 2-7 mbuf. 


2.4 mbuf 结 构 
图 2-8 所 示 的 是 mbuf 结 构 的 定义 。 





说 明 


一 个 mbuf 比 (外 部 缓存 ) 的 大 小 

带 分 组 首部 的 mbuf 的 最 大 数据 量 
存储 到 铀 中 的 最 小 数据 量 

在 正常 mbuf 中 的 最 大 数据 量 
每 个 mbuf 的 大 小 


h 中 的 mbuf 常 量 


mbuf.h 


60 /* header at beginning of each mbuf: */ 


61 
62 
63 
64 
65 
66 
67 
68 


69 
70 
71 
72 
73 


74 
75 
76 
77 
78 
79 


80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 


struct m hdr ( 


struct mbuf *mh next; /* 
struct mbuf *mh nextpkt; /* 
int mh len; /* 
caddr t mh data; /* 
short mh type; /* 
short mh flags; /* 


}; 


next buffer in chain */ 
next chain in queue/record */ 


amount of data in this mbuf */ 
pointer to data */ 
type of data (Figure 2.10) */ 


flags (Figure 2.9) */ 


/* record/packet header in first mbuf of chain; valid if M PKTHDR set */ 


struct pkthdr ( 
int len; 
Struct ifnet *rcvif; 


/* 
/* 
) 


D 


/* description of external storage 
struct m ext { 


caddr t ext buf; /* 
void (*ext, free) (); /* 
u int. ext size; /* 


}; 


struct mbuf { 
struct m hdr m hdr; 
union ( 
struct ( 


struct pkthdr MH, pkthdr; 


union { 


struct m ext MH ext; 
MH, databuf [MHLEN] ; 


char 
) MH dat; 
) MH; 
char M, databuf [MLEN] ; 
) M dat; 


图 2-8 


total packet length */ 
receive interface */ 


mapped into mbuf, valid if M EXT set */ 
start of buffer */ 


free routine if not the usual */ 
size of buffer, for ext free */ 


/* M PKTHDR set */ 


/* M EXT set */ 


/* !M PKTHDR, !M EXT */ 


mbuf 结 构 
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93 $define m next m hdr.mh next 
94 #define m len m hdr.mh, len 
95 #define m data m hdr.mh data 
96 d$define m type m hdr.mh type 
97 #define m flags m hdr.mh, flags 
98 #define m nextpkt m hdr.mh nextpkt 
99 iddefine m act m nextpkt 
100 4define m pkthdr M dat.MH.MH pkthdr 
101 f$define m ext M dat.MH.MH dat.MH ext 
102 #define m pktdat M dat.MH.MH dat.MH databuf 
103 $define m dat M, dat.M databuf 
mbuf.h 
图 2-8 (585 


结构 mbuf 是 用 一 个 m_har 结 构 跟 着 一 个 联合 来 定义 的 。 如 注释 所 示 ， 联 合 的 内 容 依 赖 于 
标志 M_PKTHDR 和 M_EXT。 
93-103 这 11 个 #define 语 句 简化 了 对 mbuf 结 构 中 的 结构 与 联合 的 成 员 的 访问 。 我 们 会 看 
到 这 种 技术 普遍 应 用 于 NeV3 源 代码 中 ， 只 要 是 一 个 结构 包含 其 他 结构 或 联合 这 种 情况 。 

我 们 在 前 面 说 明了 在 结构 mbuf 中 前 两 个 成 员 的 目的 : 指针 m_next 把 mbuf 链 接 成 一 个 
mbuf 链 表 ， 而 指针 m_nextpkt 把 mbuf 链 表 链 接 成 一 个 mbuf 队 列 。 

图 1-8 显 示 了 每 个 mbuft 的 成 员 m_l en 与 分 组 首部 中 的 成 员 m_pkthdr .1en 的 区 别 。 后 者 
是 链表 中 所 有 mbuf 的 成 员 m_Len 的 和 。 

图 2-9 所 示 的 是 成 员 m_f1lags 的 五 个 独立 的 值 。 












作为 链 路 层 广播 发 送 / 接 收 






M BCAST 











M EOR 记录 结束 
M EXT 此 mubf 带 有 给 (外 部 缓存 ) 
M MCAST 作为 链 路 层 多 播发 送 / 接 收 






形成 一 个 分 组 (记录) 的 第 一 个 mbuf 


M PKTHDR/M EOR/M BCAST/M MCAST 


图 2-9 m flagslÉ 


M PKTHDR 


M COPYFLAGS 


我 们 已 经 说 明了 标志 M_EXT 和 M_PKTHDR。M_EOR 在 一 个 包含 记录 尾 的 mbuf 中 设置 。 
Internet 协 议 (例如 TCP) 从 来 不 设置 这 个 标志 ， 因 为 TCP 提 供 一 个 无 记录 边界 的 字 节 流 服务 。 但 
是 OSI 与 XNS 运 输 层 要 用 这 个 标志 。 在 插口 层 我 们 会 遇 到 这 个 标志 ,因为 这 一 层 是 协议 无 关 的 ， 
并 且 它 要 处 理 来 自 或 发 往 所 有 运输 层 的 数据 。 

当 要 往 一 个 链 路 层 广 播 地 址 或 多 播 地址 发 送 分 组 ， 或 者 要 从 一 个 链 路 层 广 播 地 址 或 多 播 
地 址 接收 一 个 分 组 时 ， 在 这 个 mubf 中 要 设置 接 下 来 的 两 个 标志 M_BCAST 和 M_MCAST。 这 两 
个 常量 是 协议 层 与 接口 层 之 间 的 标志 (图 1-3)。 

对 于 最 后 一 个 标志 值 M_COPYFLAGS， 当 一 个 mbuf 包 含 一 个 分 组 首部 的 副本 时 ， 这 个 标 
志 表 明 这 些 标志 是 复制 的 。 

图 2-10 所 示 的 常量 MT_xxx 用 于 成 员 m_type， 指 示 存 储 在 mbuf 中 的 数据 的 类 型 。 虽 然 我 
们 总 认为 一 个 mbuf 是 用 来 存放 要 发 送 或 接收 的 用 户 数据 ， 但 mbuf 可 以 存储 各 种 不 同 的 数据 结 
构 。 回 忆 图 1-6 中 的 一 个 mbuf 被 用 来 存放 一 个 插口 地 址 结构 ， 其 中 的 目标 地 址 用 于 系统 调用 
sendto。 它 的 m_type 成 员 被 设置 为 MT_SONAME。 


$2 mbuf PEBRA 3l 





不 是 图 2-10 中 所 有 的 mbuf 类 型 值 都 用 于 Net/3。 有 些 已 不 再 使 用 (MT_HTABLE)， 还 有 一 些 
不 用 于 TCPAP 代 码 中 ， 但 用 于 内 核 的 其 他 地 方 。 例 如 ，MT_O00BDATA 用 于 OSI 和 XNS 协 议 ， 
但 是 TCP 用 不 同方 法 来 处 理 带 外 (out-of-band) 数 据 (我 们 在 29.7 节 说 明 )。 当 我 们 在 本 书 的 后 面 
遇 到 其 他 mbuf 类 型 时 会 说 明 它们 的 用 法 。 





Mbuf m. type H FNeU3 TCP/IP 代 码 


MT CONTROL 外 部 数据 协议 报 文 M_MBUF 
MT_DATA 动态 数据 分 配 M MBUF 
MT FREE 应 在 自由 列表 中 M_FREE 
MT FTABLE 分 片 重组 首部 c M FTABLE 
MT HEADER 分 组 首部 M_MBUF 
MT_HTABLE IMP 主 机 表 M HTABLE 
MT IFADDR 接口 地 址 M IFADDR 
MT OOBDATA 加 速 ( 带 外 ) 数据 M_MBUF 
MT. PCB 协议 控制 块 M_PCB 
MT_RIGHTS 访问 权限 M, MBUF 
MT RTABLE 路 由 表 M, RTABLE 
MT SONAME 插口 名 称 M, MBUF 
MT SOOPTS 插口 选项 M_SOOPTS 
MT_SOCKET 插口 结构 M_SOCKET 


图 2-10 成 员 m_type 的 值 


本 图 的 最 后 一 列 所 示 的 M_xxx 值 与 内 核 为 不 同类 型 mbuf 分 配 的 存储 器 片 有 关 。 这 里 有 大 约 
60 个 可 能 的 M_xxx 值 指派 给 由 内 核 函 数 mnal1oc 和 宏 MALLOC 分 配 的 不 同类 型 的 存储 器 空间 。 
图 2-6 所 示 的 是 来 源 于 命令 netstat -m 的 mbuf 分 配 统计 信息 ， 它 包括 每 种 MT_xxx 类 型 的 统 
it. 命令 vmstat -m 显 示 了 内 核 的 存储 分 配 统计 ， 包 括 每 个 M_xxx 类 型 的 统计 。 


由 于 mbuf 有 一 个 固定 长 度 (128 字 节 )， 因 此 对 于 mbuf 的 使 用 有 一 个 限制 一 一 包含 
的 数据 不 能 超过 108 字 节 。Net/3 用 一 个 mbuf 来 存储 一 个 TCP 协 议 控 制 块 (在 第 24 章 我 
们 会 涉及 到 )， 这 个 mbuf 的 类 型 为 MT._PCB。 但 是 4.4BSD 把 这 个 结构 的 大 小 从 108 字 
节 增 加 到 140 字 节 ， 并 为 这 个 结构 使 用 一 种 不 同 的 内 核 存 储 器 分 配 类 型 。 

仔细 的 读者 会 注意 到 图 2-10 中 我 们 表明 未 使 用 MT_PCB 类 型 的 mbuf， 而 图 2-6 显 
示 这 个 类 型 的 计数 不 为 替 。Unix 域 协议 使 用 这 种 类 型 的 mbuf， 并 且 mbuf 的 统计 功能 
用 于 所 有 协议 ， 而 不 只 是 Internet 协 议 ， 记 住 这 一 点 很 重要 。 











2.5 简单 的 mbuf 宏 和 函数 


有 超过 两 打 的 宏和 函数 来 处 理 mbuf( 分 配 一 个 mbuf， 释 放 一 个 mbuf， 等 等 )。 让 我 们 来 查 
看 几 个 宏 与 函数 的 源 代码 ， 看 看 它们 是 如 何 实 现 的 。 

有 些 操作 既 提 供 了 宏 也 提供 了 函数 。 宏 版 本 的 名 称 是 以 M 开 头 的 大 写字 母 名 称 ， 而 函数 是 
以 m_ 开 始 的 小 写字 母 名 称 。 两 者 的 区 别 是 一 种 典型 的 时 间 - 空 间 互 换 。 宏 版 本 在 每 个 被 用 到 的 
地 方 都 被 c 预 处 理 器 展开 (要 求 更 多 的 代码 空间 )， 但 是 它 在 执行 时 更 快 ， 因 为 它 不 需要 执行 函 
数 调用 (对 于 有 些 体系 结构 ， 这 是 费时 的 )。 而 对 于 函数 版 本 ， 它 在 每 个 被 调用 的 地 方 变 成 了 一 
些 指 令 ( 参 数 压 栈 ， 调 用 函数 等 )， 要 求 较 少 的 代码 空间 ， 但 会 花费 更 多 的 执行 时 间 。 
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2.5.1 m get 


让 我 们 先 看 一 下 图 2-11 中 分 配 mbuf 的 函数 : m_get。 这 个 函数 仅仅 就 是 宏 MGET 的 展开 。 





134 struct mbuf * wipc mbuf.c 
135 m get(nowait, type) 
136 int nowait, type; 
137 ( 
138 struct mbuf *m; 
139 MGET (m, nowait, type); 
140 return (m); 
141 } 
uipc mbuf.c 





图 2-11 m gett: 分 配 一 个 mbuf 


注意 ，Net/3 代 码 不 使 用 ANSI C 参 数 声 明 。 但 是 ， 如 果 使 用 一 个 ANSI C 编 译 器 ， 所 
有 Net/3 系 统 头 文件 为 所 有 的 内 核 函 数 都 提供 了 ANSI CHRE, Plte, <sys/mbuf .h> 
头 文件 中 包含 这 样 的 行 : 
struct mbuf *m getí(int, int); 
这 些 函 数 原 型 为 所 有 内 核 函 数 的 调用 提供 编译 期 间 的 参数 与 返回 值 的 检查 。 
这 个 调用 表明 参数 nowait 的 值 为 M_WAIT 或 M_DONTWAIT， 它 取决 于 在 存储 器 不 可 用 时 
是 否 要 求 等 待 。 例 如 ， 当 插口 层 请 求 分 配 一 个 mbuf 来 存储 sendto 系 统 调用 (图 1-6) 的 目标 地 
址 时 ， 它 指定 M_wAIT， 因 为 在 此 阻塞 是 没有 问题 的 。 但 是 当 以 太 网 设备 驱动 程序 请 求 分 配 一 
个 mbuf 来 存储 一 个 接收 的 帧 时 (图 1-10)， 它 指定 M_DONTWAIT， 因 为 它 是 作为 一 个 设备 中 断 
处 理 来 执行 的 ， 不 能 进入 睡眠 状态 来 等 待 一 个 mbuf。 在 这 种 情况 下 ， 若 存储 器 不 可 用 ， 设 备 
驱动 程序 丢弃 这 个 帧 比较 好 。 


2.5.2 MGETZ 


图 2-12 所 示 的 是 MGET 宏 。 调 用 MGET 来 分 配 存 储 sendto 系 统 调用 (图 1-6) 的 目标 地 址 的 


mbuf 如 下 所 示 : 
MGET (m, M WAIT, MT, SONAME); 
if (m == NULL) 
return(ENOBUFS); 


- mbuf.h 
154 #define MGET(m, how, type) ( ^ 
155 MALLOC((m), struct mbuf *, MSIZE, mbtypes[typel, (Mow)); X 
156 if (m) (^ 
157 (m)-»m type = (type); \ 
158 MBUFLOCK (mbstat.m mtypes[type]**;) \ 
159 (m)-»m next = (struct mbuf *)NULL; V 
160 (m)-»m nextpkt = (struct mbuf *)NULL; \ 
161 (m)-»m data = (m)-»m dat; \ 
162 (m)-»m flags = 0; \ 
163 ) else A 
164 (m) = m retry((how), (type)); \ 
165 ) mbufh 





图 2-12 MGETZ: 
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虽然 调用 指定 了 M_wAIT， 但 返回 值 仍然 要 检查 ， 因 为 ， 如 图 2-13 所 示 ， 等 待 一 个 mbuf 并 
不 保证 它 是 可 用 的 。 
154-157 MGET 一 开始 调用 内 核 宏 MALLOC， 它 是 通用 内 核 存储 器 分 配器 进行 的 。 数 组 
mpbtypes 把 mbuf 的 MT_xxx 值 转换 成 相应 的 M_xxx 值 (图 2-10)。 若 存储 器 被 分 配 ， 成 员 m_type 
被 设置 为 参数 中 的 值 。 
158 用 于 跟踪 统计 每 种 mbuf 类 型 的 内 核 结构 加 1(mbstat)。 当 执行 这 名 时 ， 宏 MBUFLOCK 把 它 作 
为 参数 来 改变 处 理 器 优先 级 (图 1-13)， 然 后 把 优先 级 恢复 为 原 值 。 这 防止 在 执行 语句 mbstat .m_ 
mtypes[typel««; 时 被 网 络 设备 中 断 ， 因 为 mbuf 可 能 在 内 核 中 的 各 层 中 被 分 配 。 考 虑 这 样 一 
个 系统 ， 它 用 三 步 来 实现 一 个 c 中 的 ++ 运 算 : (D 把 当前 值 装 和 人 一 个 寄存 器 ; (2) 寄 存 器 加 1; (3) 把 
寄存 器 值 存 和 存储器。 假设 计数 器 值 为 77 并 且 MGET 在 播 口 层 执行 。 假 设 执行 了 步骤 1 和 2( 寄 存 器 
值 为 78)， 并 且 一 个 设备 中 断 发 生 。 若 设备 驱动 也 执行 MGET 来 获得 同 种 类 型 的 mbuf， 在 存储 器 中 
取 值 (77)， 加 1(078)， 并 存 回 在 存储 器 。 当 被 中 断 执行 的 MGET 的 步 又 3 继续 执行 时 ， 它 将 寄存 器 的 
值 (78) 存 人 存储 器 。 但 是 计数 器 应 为 79， 而 不 是 78， 这 样 计数 器 就 被 破坏 了 。 
159-160 两 个 nbuf 指 针 ，m_next 和 m_nextpkt， 被 设置 为 空 指针 。 若 必要 ， 由 调用 者 把 
这 个 mbuf 加 入 到 一 个 链 或 队列 。 
161-162 最 后 ， 数 据 指针 被 设置 为 指向 108 字 节 的 mbuf 缓 存 的 起 始 ， 而 标志 被 设置 为 0。 
163-164 若 内 核 的 存储 器 分 配 调用 失败 ， 调 用 m_retry( 图 2-13)。 第 一 个 参数 是 M_WAIT 或 
M_DONTWAIT。 


2.5.3 m_retry 函 数 


图 2-13 所 示 的 是 m_retry 函 数 。 


uipc_mbuf.c 
92 struct mbuf * 
93 m retry(i, t) 
94 int i, t; 
95 ( 
96 struct mbuf *m; 


97 m reclaim(); 

98 #define m retry(i, t) (struct mbuf *)0 
99 MGET(m, i, t); 

100 #undef m retry 

101 return (m); 

102 ) uipc mbuf.c 


图 2-13 m retrvi& A 


92-97 ”被 mn_retry 调 用 的 第 一 个 函数 是 m_reclaim。 在 7.4 节 我 们 会 看 到 每 个 协议 都 能 定 
义 一 个 “drain” 函 数 ， 在 系统 缺乏 可 用 存储 器 时 能 被 n_rec1laim 调 用 。 在 图 10-32 中 我 们 还 
会 发 现 当 下 的 drain 函 数 被 调用 时 ， 所 有 等 待 重新 组 成 IP 数 据 报 的 IP 分 片 被 丢弃 。TCP 的 drain 
国 数 什么 都 不 做 ， 而 UDP 甚至 就 没有 定义 一 个 drain 国 数 。 

98-102 ”因为 在 调用 了 m_reclaim 后 有 可 能 有 机 会 得 到 更 多 的 存储 器 ， 因 此 再 次 调用 安 
MGET， 试 图 获得 mbuf。 在 展开 宏 MGET( 图 2-12) 之 前 ，m_retry 被 定义 为 一 个 空 指针 。 这 可 
以 防止 当 存储 器 仍然 不 可 用 时 的 无 休止 的 循环 : 这 个 MGET 展 开会 把 m 设 置 为 空 指针 而 不 是 调 
用 m_retry 函 数 。 在 MGET 展 开 以 后 ， 这 个 m_retry 的 临时 定义 就 被 取消 了 ， 以 防 在 此 之 后 
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有 对 MGET 的 其 他 引用 。 
2.5.4 mbuf 锁 


在 本 节 中 我 们 所 讨论 的 函数 和 宏 并 不 调用 sp1 函 数 ， 而 是 调用 图 2-12 中 的 MBUFLOCK 来 保 
护 这 些 函 数 和 宏 不 被 中 断 。 但 在 宏 MALLOC 的 开始 包含 一 个 splimp， 在 结束 时 有 一 个 splx。 
宏 MFREE 中 包含 同样 的 保护 机 制 。 由 于 mbuf 在 内 核 的 所 有 层 中 被 分 配 和 释放 ， 因 此 内 核 必须 
保护 那些 用 于 存储 器 分 配 的 数据 结构 。 

另外 ， 用 于 分 配 和 释放 mbuf 比 的 宏 MCLALLOC 与 MCLFREE 要 用 一 个 splimp 和 一 个 splx 
包括 起 来 ， 因 为 它们 修改 的 是 一 个 可 用 钞 链 。 

因为 存储 器 分 配 与 释放 及 徐 分 配 与 释放 的 宏 被 保护 起 来 防止 被 中 断 ， 我 们 通常 在 4GET 和 
m_get 这 样 的 函数 和 宏 的 前 后 不 再 调用 sp1l 函 数 。 ' 


2.6 m devget 和 m _ pullup 函 数 


我 们 在 讨论 PP、ICMP、IGMP、UDP 和 TCP 的 代码 时 会 遇 到 峭 数 m_pullup。 它 用 来 你 汪 
指定 数目 的 字 节 (相应 协议 首部 的 大 小 ) 在 链表 的 第 一 个 mbuf 中 紧 挨 着 存放 ; 即 这 些 指 定数 目 
的 字 节 被 复制 到 一 个 新 的 mbuf 并 紧 接着 存放 。 为 了 理解 m_pullup 的 用 法 ， 必 须 查看 它 的 实 
现 及 相关 的 函数 m_devget 和 宏 mtod 与 4tom。 在 分 析 这 些 问 题 的 同时 我 们 还 可 以 再 次 领会 
NeV3 中 mbuf 的 用 法 。 


2.6.1 m_devget 函 数 


当 接 收 到 一 个 以 太 网 巾 时 ， 设 备 驱 动 程序 调用 函数 m_devget 来 创建 一 个 mbuf 链 表 ， 并 
把 设备 中 的 帧 复制 到 这 个 链表 中 。 根 据 所 接收 的 帧 的 长 度 (不 包括 以 太 网 首部 )，. 可 能 导致 4 种 
不 同 的 mbuf 链 表 。 图 2-14 所 示 的 是 前 两 种 。 


m pkthdr.len 52 m pkthdr.len 85 


m pkthár.rcvif pir m pkthdr.rcvif|ptr 






85 字 节 的 数据 
(LIP 首 部 开始 ) 


32 字 节 的 数据 
(以 IP 首 部 开始 ) 





85 < 数据 长 度 <100 
图 2-14 m_devget 创 建 的 前 两 种 类 型 的 mbuf 


0< 数 据 长 度 <84 














104 
ptr 


m pkthdr.len 


m pkthdr.rcvif 





100-3: IN 
(以 下 首部 开始 ) 


101 < 数据 长 度 < 207 


£2* mbuf; AEBRA 35 


mbuf () 


m nextpkt 








m len 


4 字 节 的 数据 





图 2-15 m_devget 创建 的 第 3 种 mbuf 


1) 图 2-14 左 边 的 mbuf 用 于 数据 的 长 度 在 0~84 字 

-项 之 间 的 情况 。 在 这 个 图 中 ， 我 们 假定 有 352 
字 节 的 数据 : 一 个 20 字 节 的 IP 首 部 和 一 个 32 字 
节 的 TCP 首 部 (标准 的 20 字 节 的 TCP 首 部 加 上 
12 字 节 的 TCP 选 项 )， 但 不 包括 TCP 数 据 。 既 
然 m_devget 返 回 的 mbuf 数 据 从 IP 首 部 开始 ， 
m_len 的 实际 最 小 值 是 28: 20 字 节 的 IP 首 部 ， 
8 字 节 的 UDP 首 部 和 一 个 0 长 度 的 UDP 数 据 报 。 
m_devget 在 这 个 mbuf 的 开始 保留 了 16 字 节 
未 用 。 虽 然 14 字 节 的 以 太 网 首部 不 存放 在 这 
里 ， 还 是 分 配 了 一 个 14 字 节 的 用 于 输出 的 以 
太 网 首部 ， 这 是 同一 个 mbuf， 用 于 输出 。 我 
们 会 遇 到 两 个 函数 : icmp_reflect 和 
tcp_respond， 它 们 通过 把 接收 到 的 mbuf 
作为 输出 mbuf 来 产生 一 个 应 答 。 在 这 两 种 情 
况 中 ， 接 收 的 数据 报应 该 少 于 84 ED. NE 
很 容易 在 前 面 保留 16 字 节 的 空间 ， 这 样 在 建 
立 输出 数据 报时 可 以 节省 时 间 。 分 配 16 cR 
而 不 是 14 字 节 的 原因 是 为 了 在 mbuf 中 用 长 字 
对 难 方式 存储 下 首部 。 

2) 如 果 数 据 在 85~100 字 节 之 间 ， 就 仍然 存放 在 
一 个 分 组 首部 mbuf 中 ， 但 在 开始 没有 16 字 节 














1500 
ptr 


m pkthdr.len 


m pkthdr.rcvif 


m ext,.ext free 
m ext.ext, size 


NULL 
2048 


208 < 数据 长 度 < 2048 
2048F ft 3& 





1500 字 节 数 据 
(以 IP 首 部 开始 ) 


548 字 节 ( 未 用 ) 


图 2-16 m_devget 创 建 的 第 4 种 mbuf 
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的 空间 。 数 据 存储 在 数组 m_pktqat 的 开始 ， 并 且 任 何 未 用 的 空间 放 在 这 个 数组 的 后 
面 。 例 如 在 图 2-14 的 右边 的 mbuf 显 示 的 就 是 这 个 例子 ， 假 设 有 85 字 节 数 据 。 

3) 图 2-15 所 示 的 是 m_devget 创 建 的 第 3 种 mbuf。 当 数据 在 101~207 字 节 之 间 时 ， 要 求 有 
两 个 mbuf。 前 100 字 节 存 放 在 第 一 个 mbuf 中 (有 分 组 首部 的 mbufj， 而 剩 下 的 存放 在 第 二 
个 mbuf 中 。 在 此 例 中 ， 我 们 显示 的 是 一 个 104 字 节 的 数据 报 。 在 第 一 个 mbuf 的 开始 没 
有 保留 16 字 节 的 空间 。 

4) 图 2-16 所 示 的 是 m_devget 创 建 的 第 四 种 mbuf。 如 果 数 据 超过 或 等 于 208 字 节 
(MINCLBYTES)， 要 用 一 个 或 多 个 答 。 图 中 的 例子 假设 了 一 个 1500 字 节 的 以 太 网 帧 。 
如 果 使 用 1024 字 节 的 徐 ， 本 例子 需要 两 个 mbuf， 每 个 mbuf 都 有 标志 M_EXT， 和 指向 一 
个 敌 的 指针 。 


2.6.2 mtod 和 dtom 宏 


宏 mtod 和 dtom 也 定义 在 文件 mbuf .h 中 。 它 们 简化 了 复杂 的 mbuf 结 构 表 达 式 。 


#define mtod(m,t) ((t)((m)-»m data)) 

$define dtom(x) ((struct mbuf *)((int)(x) & "(MSIZE-1))) 

mtod(“mbuf 到 数据 ”) 返 回 一 个 指向 mbuf 数 据 的 指针 ， 并 把 指针 声名 为 指定 类 型 。 例 如 
代码 


struct mbuf *m; 
struct ip *ip; 


ip = mtod(m, struct ip *); 

ip-»ip v = IPVERSION; 
存储 在 mbuf 的 数据 (m_data) 指 针 ip 中 。C 编 译 器 要 求 进行 类 型 转换 ， 然 后 代码 用 指针 ip 引 用 
IP 首 部 。 我 们 可 以 看 到 当 一 个 C 结 构 ( 通 常 是 一 个 协议 首部 ) 存 储 在 一 个 mbuf 中 时 会 用 到 这 个 宏 。 
当 数 据 存 放 在 mbuf 本 身 ( 图 2-14 和 图 2-15) 或 存放 在 一 个 矮 中 (图 2-16) 时 ， 可 以 用 这 个 宏 。 

Zidtom (“数据 到 mbuf”) 取 得 一 个 存放 在 一 个 mbuf 中 任意 位 置 的 数据 的 指针 ， 并 返回 这 
个 mbuf 结 构 本 身 的 一 个 指针 。 例 如 ， 若 我 们 知道 ip 指 向 一 个 mbuf 的 数据 区 ， 下 面 的 语句 序列 

struct mbuf *m; 

struct ip *ip; 

m = dtom(ip): . 

把 指向 这 个 mbuf 开 始 的 指针 存放 到 m 中 。 我 们 知道 MST2ZE(128) 是 2 的 寡 ， 并 且 内 核 存储 
器 分 配器 总 是 为 mbuf 分 配 连续 的 MSIZE 字 节 的 存储 块 ，dtom 仅 仅 是 清除 参数 中 指针 的 低位 来 
发 现 这 个 mbuf 的 起 始 位 置 。 

宏 atom 有 一 个 问题 : 当 它 的 参数 指向 一 个 径 ， 或 在 一 个 得 内 ， 如 图 2-16 时 ， 它 不 能 正确 
执行 。 因 为 那里 没有 指针 从 秘 内 指 回 mbuf 结 构 ，dtom 不 能 被 使 用 。 这 导致 了 下 一 个 国 数 : 
m pullup. 


2.6.3 m pullupéeR SUEDE ZERO AAA 


函数 m_pullup 有 两 个 目的 。 第 一 个 是 当 一 个 协议 (IIP、ICMP、IGMP、UDP 或 TCP) 发 现 
在 第 一 个 mbuf 的 数据 量 (n_1en) 小 于 协议 首部 的 最 小 长 度 (例如 : IP 是 20，UDP 是 8，TCP 是 
20) 时 。 调 用 m_pullup 是 基于 假定 协议 首部 的 剩余 部 分 存放 在 链表 中 的 下 一 个 mbuf 。 
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m_pullup 重 新 安排 mbuf 链 表 ， 使 得 前 N 字 节 的 数据 被 连续 地 存放 在 链表 的 第 一 个 mbuf 中 。NN 
是 这 个 函数 的 一 个 参数 ， 它 必须 小 于 或 等 于 100 (MHLEN) 。 如 果 前 N 字 市 连续 存放 在 第 一 个 
mbuf 中 ， 则 可 以 使 用 宏 mtod 和 dt om。 

例如 ， 我 们 在 IP 输 入 例 程 中 会 遇 到 下 面 这 样 的 代码 : 


if (m->m_len < sizeof(struct ip) && 
(m = m pullup(m, sizeof(struct ip))) == 0) ( 
ipstat.ips toosmall-s-*; 
goto next; 
} 
ip = mtod(m, struct ip *); 
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两 个 原因 会 失败 : (1 如 果 它 需要 其 他 mbuf 并 且 调 用 MGET 失 败 ; 或 者 (2) 如 果 整 个 mbuf 链 表 中 
的 数据 总 数 少 于 要 求 的 连续 字 节 数 ( 即 我 们 所 说 的 N， 在 本 例 中 是 20)。 通 常 ， 失 败 是 因为 第 二 
个 原因 。 在 此 例 中 ， 如 果 m_pullup 失 败 ， 一 个 IP 计 数 器 加 1， 并 且 此 IP 数 据 报 被 丢弃 。 注 意 ， 
这 段 代码 假设 失败 的 原因 是 mbuf 链表 中 数据 少 于 20 字 池 。 

实际 上 ， 在 这 种 情况 下 ，m_pul1lup 很 少 能 被 调用 (注意 ，C 语 言 的 && 操 作 符 仅 当 mbuf 长 
度 小 于 期 待 值 时 才 调 用 它 )， 并 且 当 它 被 调用 时 ， 它 通常 会 失败 。 通 过 查看 图 2-14~ 图 2-16， 我 
们 可 以 找到 它 的 原因 : 在 第 一 个 mbuf 中 ,或 在 徐 中 ， 从 IP 首 部 开始 有 至 少 100 字 节 的 连续 字 节 。 
这 人 允许 60 字 节 的 最 大 IP 首 部 ， 并 且 后 面 跟着 40 字 节 的 TCP 首 部 (其 他 协议 一 一 JCMP，IGMP 和 
UDP 一 一 它们 的 协议 首部 不 到 40 字 节 )。 如 果 mbuf 链 表 中 的 数据 可 用 (分 组 不 小 于 协议 要 求 的 
最 小 值 )， 则 所 要 求 的 字 节 数 总 能 连续 地 存放 在 第 一 个 mbuf 中 。 但 是 ， 如 果 接 收 的 分 组 太 小 
(mn_Len 小 于 期 待 的 最 小 值 )， 则 m_pullup 被 调用 ， 并 且 它 返 回 一 个 差错 ， 因 为 在 mbuft 链 表 
中 没有 所 要 求 数目 的 可 用 数据 。 

源 于 伯克利 的 内 核 维护 一 个 叫 MPFail 的 变量 ， 每 次 m_pulluP 失 败 时 ， 它 都 加 

1。 在 一 个 Net3 系 统 中 曾经 接收 了 超过 2700 万 的 IP 数 据 报 ， 而 MPEFaiI 只 有 9。 计 数 

器 ipstat.ips_toosmal1 也 是 9， 并 且 所 有 其 他 协议 计数 器 (ICMP、IGMP、UDP 

和 TCP 等 ) 所 计 的 m_pullup 失 败 次 数 为 0。 这 证 实 了 我 们 的 断言 : X Km pullup 

的 失败 是 因为 接收 的 下 数据 报 太 小 。 


2.6.4 m_pul1lup 和 IP 的 分 片 与 重组 


使 用 m_pul1lup 的 第 二 个 用 途 涉 及 到 IP 和 TCP 的 重组 。 假 定 IP 接 收 到 一 个 长 度 为 296 的 分 
组 ， 这 个 分 组 是 一 个 大 的 IP 数 据 报 的 一 个 分 片 。 这 个 从 设备 驱动 程序 传 到 IP 输 入 的 mbuf 看 起 
来 像 我们 在 图 2-16 中 所 示 的 一 个 mbuf: 296 字 池 的 数据 存放 在 一 个 篮 中 。 我 们 将 这 显示 在 图 2- 
17 中 。 

问题 在 于 ， 卫 的 分 片 算法 将 各 分 片 都 存放 在 一 个 双向 链表 中 ， 使 用 下 首部 中 的 源 与 目标 卫 
地 址 来 存放 向 前 与 向 后 链表 指针 (当然 ， 这 两 个 IP 地 址 要 保存 在 这 个 链表 的 表 头 中 ， 因 为 它们 
还 要 放 回 到 重组 的 数据 报 中 。 我 们 在 第 10 章 讨论 这 个 问题 )。 但 是 如 果 这 个 下 首部 在 一 个 矮 中 ， 
如 图 2-17 所 示 ， 这 些 链表 指针 会 存放 在 这 个 往 中 ， 并 且 当 以 后 遍历 链表 时 ， 指 向 卫 首 部 的 指 
针 ( 即 指向 这 个 簇 的 起 始 的 指针 ) 不 能 被 转换 成 指向 mbut 的 指针 。 这 是 我 们 在 本 节 前 面 提 到 的 
问题 :如 果 m_data 指 向 一 个 簇 时 不 能 使 用 宏 atom， 因 为 没有 从 乱 指 回 mbvf 的 指针 。IP 分 片 
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图 2-17 一 个 长 度 为 296 的 IP 分 片 


为 解决 这 个 问题 ， 当 接收 到 一 个 分 片 时 ， 若 分 片 存放 在 一 个 灸 中 ， 王 分 片 例 程 总 是 调用 
m_pul1lup。 它 强行 将 20 字 节 的 IP 首 部 放 到 它 自 己 的 mbuf 中 。 代 码 如 下 : 


if (m-»m flags & M EXT) { i 
if ((m = m pullup(m, sizeof (struct ip))) == 0) { 
ipstat.ips toosmall-s-*; 
goto next; 
) 
ip = mtod(m, struct ip *); 
} 


图 2-18 所 示 的 是 在 调用 了 m_pul1lup 后 得 到 的 mbuf 链 表 。m_pullup 分 配 了 一 个 新 的 
mubf， 挂 在 链表 的 前 面 ， 并 从 秘 中 取 走 40 字 节 放 和 到 这 个 新 的 mbuf 中 。 之 所 以 取 40 字 节 而 不 
是 仅 要 求 的 20 字 节 ， 是 为 了 保证 以 后 在 耳 把 数据 报 传 给 一 个 高 层 协议 (例如 : ICMP, IGMP, 
UDP 或 TCP) 时 ， 高 层 协 议 能 正确 处 理 。 采 用 不 可 思议 的 40( 图 7-17 中 的 max_protohdr) 是 因 
为 最 大 协议 首部 通常 是 一 个 20 字 节 的 IP 首 部 和 20 字 节 的 TCP 首 部 的 组 合 ( 这 假设 其 他 协议 族 ， 
例如 OSI 协议 ， 并 不 编译 到 内 核 中 )。 

在 图 2-18 中 ，IP 分 片 算 法 在 左边 的 mbuf 中 保存 了 一 个 指向 IP 首 部 的 指针 ， 并 且 可 以 用 
dtom 将 这 个 指针 转换 成 一 个 指向 mbuf 本 身 的 指针 。 
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m pkthdr.len 296 


m pkthdr.rcvif |ptr 
IP 首 部 


数据 报 的 下 20 字 节 









m ext.ext free 
m ext.ext size 


数据 报 的 下 256 字 节 
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图 2-18 调用 m_pullup 后 的 长 度 为 296 的 IP 分 片 


2.6.5 TCP 重 组 避免 调用 m_pullup 


重组 TCP 报 文 段 使 用 一 个 不 同 的 技术 而 不 是 调用 m_pullup。 这 是 因为 mn_pullup 开 销 较 
X: 分 配 存储 器 并 且 数 据 从 一 个 入 复制 到 一 个 mbuf 中 。TCP 试 图 尽 可 能 地 避免 数据 的 复制 。 

卷 1 的 第 19 章 提 到 大 约 有 一 半 的 TCP 数 据 是 批量 数据 (通常 每 个 报 文 段 有 512 或 更 多 字 节 的 
数据 )， 并 且 另 一 半 是 交互 式 数据 (这 里 面 有 大 约 90% 的 报 文 段 包含 不 到 10 字 节 的 数据 )。 因 此 ， 
当 TCP 从 IP 接 收报 文 段 时 ， 它 们 通常 是 如 图 2-14 左 边 所 示 的 格式 (一 个 小 量 的 交互 数据 ， 存 储 
在 mbuf 本 身 ) 或 图 2-16 所 示 的 格式 (批量 数据 ， 存 储 在 一 个 徐 中 )。 当 TCP 报 文 段 失 序 到 达 时 ， 
它们 被 TCP 存 储 到 一 个 双向 链表 中 。 如 IP 分 片 一 样 ， 在 IP 首 部 的 字段 用 于 存放 链表 的 指针 ， 既 
然 这 些 字段 在 TCP 接 收 了 IP 数 据 报 后 不 再 需要 ， 这 完全 可 行 。 但 当 IP 首 部 存放 在 一 个 答 中 ， 要 
将 一 个 链表 指针 转换 成 一 个 相应 的 mbuf 指 针 时 ， 会 引起 同样 的 问题 (图 2-17)。 

为 解决 这 个 问题 ， 在 27.9 节 中 我 们 会 看 到 TCP 把 mbuf 指 针 存放 在 TCP 首 部 中 的 一 些 未 用 的 
字段 中 ， 提 供 一 个 从 徐 指 回 mbuf 的 指针 ， 来 避免 对 每 个 失 序 的 报 文 段 调用 m_pul11Lup。 如 果 
IP 首 部 包含 在 mbuf 的 数据 区 (图 2-18)， 则 这 个 回 指 指针 是 无 用 的 ， 因 为 宏 atom 对 这 个 链表 指 
针 会 正常 工作 。 但 如 果 卫 首部 包含 在 一 个 焦 中 ， 这 个 回 指 指针 将 被 使 用 。 当 我 们 在 讨论 27.9 节 
的 tcp_reass 时 ， 会 研究 实现 这 种 技术 的 源 代码 。 
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2.6.6 m_pullup 使 用 总 结 
我 们 已 经 讨论 了 关于 使 用 m_pullup 的 三 种 情况 : 


“大 多 数 设 备 驱 动 程序 不 把 一 个 IP 数 据 报 的 第 一 部 分 分 割 到 几 个 mbuf 中 。 假 设 协 议 首部 都 
紧 挨 着 存放 ， 则 在 每 个 协议 IP、ICMP、IGMP、UDP 和 TCP) 中 调用 m_pullup 的 可 能 
性 很 小 。 如 果 调 用 m_pul1lup， 通 常 是 因为 IP 数 据 报 太 小 ， 并 且 m_pullup 返 回 一 个 差 


错 ， 这 时 数据 报 被 丢弃 ， 并 且 差 错 计数 器 加 1。 


。 对 于 每 个 接收 到 的 IP 分 片 ， 当 下 数据 报 被 存放 在 一 个 秋 中 时 ，m_pullup 被 调用 。 这 意味 
着 ， 几 乎 对 于 每 个 接收 的 分 片 都 要 调用 m_pul1lup， 因 为 大 多 数 分 片 的 长 度 大 于 208 字 节 。 
*。 只 要 TCP 报 文 段 不 被 IP 分 片 ， 接 收 一 个 TCP 报 文 段 ， 不 论 是 否 失 序 ， 都 不 需 调用 


m_pullup。 这 是 避免 IP 对 TCP 分 片 的 一 个 原因 。 
2.7 mbufzn ERE 


在 操作 mbuf 的 代码 中 ， 我 们 会 遇 到 图 2-19 中 所 列 的 宏和 图 2-20 中 所 列 的 函数 。 图 2-19 中 的 
宏 以 函数 原型 的 形式 显示 ， 而 不 是 以 #define 形 式 来 显示 参数 的 类 型 。 由 于 这 些 宏和 函数 主 
要 用 于 处 理 mbuf 数 据 结构 并 且 不 涉及 联网 问题 ， 因 此 我 们 不 查看 实现 它们 的 源 代码 。 还 有 另 
外 一 些 mbuf 宏 和 函数 用 于 Net/3 源 代码 的 其 他 地 方 ， 但 由 于 我 们 在 本 书 中 不 会 遇 到 它们 ， 因 此 


没有 把 它们 列 于 图 中 。 


MCLGET 


MFREE 


MGETHDR 


MH, ALIGN 


M, PREPEND 
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void MCLGET (struct mbuf *;s, int nmowait); 
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->m_next 指 向 ， 可 以 为 空 ) 存 放 在 n 中 
void MFREE (struct mbuf *m, struct mbuf *n); 

分 配 一 个 mbuf， 并 把 它 初始 化 为 一 个 分 组 首部 。 这 个 宏 与 MGET( 图 2-12) 相 似 ， 但 设置 
了 标志 M_PKTHDR， 并 且 数 据 指针 (m_aata) 指 向 紧 接 分 组 首部 后 的 100 字 节 的 缓存 
void MGETHDR(struct mbuf * m, int nowait, int type); 

设置 包含 -- 个 分 组 首部 的 mbuf 的 m_aata， 在 这 个 mbuf 数 据 区 的 尾部 为 一 个 长 度 为 1en 


字 节 的 对 象 提供 空间 。 这 个 数据 指针 也 是 长 字 对 准 方式 的 


void MH ALIGN(struct mbuf *m, intlen); 

在 im 指向 的 mbuf 中 的 数据 的 前 面 添 加 /en 字 节 的 数据 。 如 果 mbuf 有 空间 ， 则 仅 把 指针 (m_Gata) 
减 len 字 第， 并 将 长 度 (m_len) 增 加 /en 字 告 。 如 果 没 有 足够 的 空间 ， 就 分 配 一 个 新 的 mbuf， 
它 的 m_next 指 针 被 设置 为 m。-- 个 新 mbuf 的 指针 存放 在 m 中 。 并 且 新 mbuf 的 数据 指针 被 设置 ， 
这 样 len 字 节 的 数据 放置 到 这 个 mbuf 的 尾部 (例如 ， 调 用 MH_ALIGN)。 如 果 一 个 新 mbuf 被 分 配 ， 
并 且 原 来 的 nbuf 的 分 组 首部 标志 被 设置 ， 则 分 组 首部 从 老 mbuf 中 移 到 新 mbuf 中 
void M PREPEND(struct mbuf *m, int len, int nowait); 

将 指向 一 个 mbuf 数 据 区 中 某 个 位 置 的 指针 x 转换 成 一 个 指向 这 个 mbuf 的 起 始 的 指针 。 
struct mbuf *dtom(void *x); 

将 m 指 向 的 mbuf 的 数据 区 指针 的 类 型 转换 成 type 类 型 


type mtod(struct mbuf *m, type); 
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从 m 指 向 的 mbuf 中 移 走 ien 字 节 的 数据 。 如 果 1en 是 正 数 ， 则 所 操作 的 是 紧 排 在 这 个 
mbuf 的 开始 的 len 字 节 数 据 ; 否则 是 紧 排 在 这 个 mbuf 的 尾部 的 len 绝 对 值 字 节 数据 
void m adj(struct mbuf *m, int len); 
把 由 nr 指向 的 mbuf 链 表 链 接 到 由 m 指 向 的 mbuf 链 表 的 尾部 。 当 我 们 计 论 IP 重 组 时 (第 10 
章 ) 会 遇 到 这 个 函数 

void m_cat (struct mbuf *m, struct mbuf *n); 
这 是 m_copym 的 三 参数 版 本 ， 它 隐 含 的 第 4 个 参数 的 值 为 MA_DONTWAIT 
struct mbuf * m copy(struct mbuf *m, int offset, int len); 
从 mm 指 向 的 mbuf 链 表 中 复制 len 字 节 数 据 到 由 cp 指向 的 缓存 。 从 mbuf 链 表 数 据 区 起 始 的 
offset 字 节 开 始 复制 

void m copydata (struct mbuf *m, 
从 cp 指向 的 缓存 复制 len 字 节 的 数据 到 由 mm 指 向 的 mbuf， 数 据 存储 在 mbuf 链 表 起 始 
offset 字 节 后 。 必 要 时 ，mbuf 链 表 可 以 用 其 他 mbuf 来 扩充 


int offset, 









































m_copydata 
m_copyback 


m devget 
void (*copy) (const void *, void *, u int)); 


m free 宏 MFREE 的 函数 版 本 
| struct mbuf *m free(struct mbuf *m); 
m freem 释放 mm 指向 的 链表 中 的 所 有 mbuf 
| void m freem(struct mbuf *m); 
m get 宏 MGET 的 函数 版 本 。 我 们 在 图 2-12 中 显示 过 此 函数 
m getclr 此 函数 调用 宏 MGET 来 得 到 一 个 mbuf， 并 把 108 字 节 的 缓存 清 零 
struct mbuf *m getclr(int nowait, int type); 
m gethdr 宏 MGETHDR 的 泵 数 版 本 
| struct mbuf *m gethdr(int nowait, int type); 
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int offset, int len, caddr, t cp); 















int len, 





void m copyback(struct mbuf *m, caddr t cp); 


创建 一 个 新 的 mbuf 链 表 ， 并 从 m 指 向 的 mbuf 链 表 的 开始 offset 处 复制 len 字 节 的 数据 。 
一 个 新 mbuf 链 表 的 指针 作为 此 函数 的 返回 值 。 如 果 len 等 于 常量 M_COPYALL， 则 从 这 
个 mbuf 链 表 的 offset 开 始 的 所 有 数据 都 将 被 复制 。 在 2.9 节 中 、 我 们 会 更 详细 地 介绍 这 个 
ER 
struct mbuf *m copym(struct mbuf *m, int offset, 
创建 一 个 带 分 组 首部 的 mbuf 链 表 ， 并 返 问 指向 这 个 链表 的 指针 。 这 个 分 组 首部 的 len 和 
rcvif 字 段 被 设置 为 len 和 ifp。 调用 函数 copy 从 设备 接口 (由 buf 指 向 ) 将 数据 复制 到 mbuf 中 。 
如 果 copy 是 一 个 空 指针 ， 调 用 函数 bcopy。 由 十 尾部 协议 不 再 被 支持 ，o#f 为 0。 我 们 在 
2.6 节 讨论 了 这 个 函数 


struct mbuf *m devget(char *buf, int len, int off, struct ifnet *ifp, 











int len, int nowait); 


























struct mbuf *m get(int nowait, 














个 mbuf 中 。 如 果 这 个 函数 成 功 ， 则 宏 mtod 能 返回 一 个 正好 指向 这 个 大 小 为 len 的 结构 。 
我 们 在 2 .6 节 讨 论 了 这 个 函数 


struct mbuf *m pullup(struct mbuf *m, int len); 






图 2-20 在 本 书 中 我 们 要 遇 到 的 mbuf 函 数 


所 有 原型 的 参数 nowait 是 M_WAIT 或 M_DONTWAIT， 参 数 type 是 图 2-10 中 所 示 的 MT_xxx 中 
的 一 个 o 
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M_PREPEND 的 一 个 例子 是 ， 从 图 1-7 转 换 到 图 1-8 的 过 程 中 ， 当 IP 和 UDP 首 部 被 添加 到 数 
据 的 前 面 时 要 调用 这 个 宏 ， 因 为 另 一 个 mbuf 要 被 分 配 。 但 当 这 个 宏 再 次 被 调用 (从 图 1-8 转 换 
成 图 2-2) 来 添加 以 太 网 首部 时 ， 在 那个 mbuf 中 已 有 存放 这 个 首部 的 空间 。 


M_copydata 的 最 后 一 个 参数 的 类 型 是 caddr_t， 它 代表 “内 核 地 址 ”。 这 个 
数据 类 型 通常 定义 在 <sys/types.h> 中 ,为 char *。 它 最 初 在 内 核 中 使 用 ， 但 被 
某 些 系统 调用 使 用 时 被 外 露出 来 。 例 如 ，mmap 系 统 调 用 ， 不 论 是 4.4BSD 或 SVR4 都 
把 caddr_t 作 为 第 一 个 参数 的 类 型 并 作为 返回 值 类 型 。 


2.8 ”Net/3 联 网 数据 结构 小 结 


本 节 总 结 我 们 在 Net/3 联 网 代码 中 要 遇 到 的 数据 结构 类 型 。 在 Net/3 内 核 中 用 到 其 他 数据 结 
构 ( 感 兴趣 的 读者 可 以 查看 头 文 件 <sys /queue .h>)， 但 下 面 这 些 是 我 们 在 本 书 中 要 遇 到 的 。 
1) 一 个 mbuf 链 : 一 个 通过 m_next 指 针 链 接 的 mbuf 链 表 。 我 们 已 经 看 过 几 个 这 样 的 例子 。 
2) 只 有 一 个 头 指 针 的 mbuf 链 的 链表 。mbnuf 链 通过 每 个 链 的 第 一 个 mbuf 中 的 m_nextpkt 


指针 链接 起 来 。 
图 2-21 所 示 的 就 是 这 种 链表 。 这 种 数据 结构 的 例子 是 一 个 插口 发 送 缓存 和 接收 缓存 。 
sockbuf () mbuf() mbuf () 


m nextpkt 





图 2-21 只 有 头 指针 的 mbuf 链 的 链表 


顶部 的 两 个 mbuf 形 成 这 个 队列 中 的 第 一 个 记录 ， 底 下 三 个 mbuf 形 成 这 个 队列 的 第 二 个 
记录 。 对 于 一 个 基于 记录 的 协议 ， 如 UDP， 我 们 在 每 个 队列 中 能 遇 到 多 个 记录 。 但 对 
于 像 TCP 这 样 的 协议 ， 它 没有 记录 的 边界 ， 每 个 队列 我 们 只 能 发 现 一 个 记录 (一 个 mbuf 
链 可 能 包含 多 个 mbuf) 。 
把 一 个 mbuf 追 加 到 队列 的 第 一 个 记录 中 要 遍历 所 有 第 一 个 记录 的 mbuf， 直 到 遇 到 
m_next 为 空 的 mbuf。 而 追加 一 个 包含 新 记录 的 mbuf 链 到 这 个 队列 中 ， 要 查找 所 有 记 
录 直 到 过 到 m_nextpkt 为 空 的 记录 。 

3) 一 个 有 头 指 针 和 尾 指 针 的 mbuf 链 的 链表 。 
图 2-22 显 示 的 是 这 种 类 型 的 链表 。 我 们 在 接口 队列 中 会 遇 到 它 (图 3-13)， 并 且 在 图 2-2 
中 已 显示 过 它 的 一 个 例子 。 
在 图 2-21 中 仅 有 一 点 改变 : 增加 了 一 个 尾 指针 ， 来 简化 增加 一 个 新 记录 的 操作 。 

4) 双向 循环 链表 。 
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mbufí) 
[mmext — wur 
m nextpkt NULL 





图 2-22 有 头 指针 和 尾 指针 的 链表 


图 2-23 所 示 的 是 这 种 类 型 的 链表 ， 我 们 在 IP 分 片 与 重 装 ( 第 10 章 )、 协 议 控 制 块 (第 22 章 ) 
及 TCP 失 序 报 文 段 队列 (第 27.9 节 ) 中 会 遇 到 这 种 数据 结构 。 








图 2-23 双向 循环 链表 


在 这 个 链表 中 的 元 素 不 是 mbuf 一 一 它们 是 一 些 定义 了 两 个 相 邻 的 指针 的 结构 : 一 个 
next 指 针 跟 着 一 个 previous 指 针 。 两 个 指针 必须 在 结构 的 起 始 处 。 如 果 链 表 为 空 ， 表 头 
的 next 和 previous 指 针 都 指向 这 个 表 头 本 身 。 

在 图 中 我 们 简单 地 把 向 后 指针 指向 另 一 个 向 后 指针 。 显 然 所 有 的 指针 应 包含 它 所 指向 
的 结构 的 地 址 ， 即 向 前 指针 的 地 址 (因为 向 前 和 向 后 指针 总 是 放 在 结构 的 起 始 处 )。 

这 种 类 型 的 数据 结构 能 方便 地 向 前 向 后 遍历 ， 并 允许 方便 地 在 链表 中 任何 位 置 进行 插 
入 与 删除 。 

函数 insque 和 remque( 图 10-20) 被 调用 来 对 这 个 链表 进行 插入 和 删除 。 


2.9 m_copy 和 徐 引 用 计数 


使 用 篮 的 一 个 明显 的 好 处 就 是 在 要 求 包含 大 量 数据 时 能 减少 mbuf 的 数目 。 例 如 ， 如 果 不 
使 用 徐 ， 要 有 10 个 mbuf 才 能 包含 1024 字 节 的 数据 : 第 一 个 mbuf 带 有 100 字 节 的 数据 ， 后 面 8 个 
每 个 存放 108 字 节 数 据 ， 最 后 一 个 存放 60 字 节 数 据 。 分 配 并 链接 10 个 mbuf 比 分 配 一 个 包含 
1024 字 节 簇 的 mbuf 开 销 要 大 。 簇 的 一 个 潜在 缺点 是 浪费 空间 。 在 我 们 的 例子 中 使 用 一 个 知 
(2048 + 128) 要 2176 字 节 ， 而 1280 字 节 不 到 1 钞 (10 x 128). 

徐 的 另外 一 个 好 处 是 在 多 个 mbuf 闻 可 以 共享 一 个 徐 。 在 TCP 输 出 和 m_copy 函 数 中 我 们 遇 
到 过 这 种 情况 ， 但 现在 我 们 要 更 详细 地 说 明 这 个 问题 。 
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例如 ， 假 设 应 用 程序 执行 一 个 write， 把 4096 字 节 写 到 TCP 插 口中 。 假 设 插口 发 送 缓存 
原来 是 空 的 ， 接 收 窗口 至 少 有 4096， 则 会 发 生 以 下 操作 。 插 口 层 把 前 2048 字 节 的 数据 放 在 一 
个 乱 中 ， 并 且 调 用 协议 的 发 送 例 程 。TCP 发 送 例 程 把 这 个 mbuf 追 加 到 它 的 发 送 缓存 后 ， 如 图 
2-24 所 示 ， 并 调用 tcp_output。 结 构 socket 中 包含 sockbuf 结 构 ， 这 个 结构 中 存储 着 发 送 
缓存 mbuf 链 的 链表 的 表 头 : so snd.sb mb. 


et() . mbufí) 


















| so.snd.sb mb - 


m pkthdr.len 


2048 







2048F W 





2048 字 节 的 数据 


图 2-24 包含 2048 字 节 数 据 的 TCP 插 口 发 送 缓存 


假设 这 个 连接 (典型 的 是 以 太 网 ) 的 一 个 TCP 最 大 报 文 段 大 小 (MSS) 为 1460，tcp_output 
建立 一 个 报 文 段 来 发 送 包含 前 1460 字 节 的 数据 。 它 还 建立 一 个 包含 IP 和 TCP 首 部 的 mbuf， 为 
链 路 层 首部 (16 字 节 ) 预 留 了 空间 ， 并 将 这 个 mbuf 链 传 给 IP 输 出 。 在 接口 输出 队列 尾部 的 mbuf 
链 显 示 在 图 2-25 中 。 

在 1.9 节 的 UDP 例子 中 ，UDP 用 mbuf 链 来 存放 数据 报 ， 在 前 面 添加 一 个 mbuf 来 存放 协议 首 
部 ， 并 把 此 链 传 给 耻 输 出 。UDP 并 不 把 这 个 mbuf 保 存在 它 的 发 送 缓存 中。 而 TCP 不 能 这 样 做 ， 
因为 TCP 是 一 个 可 靠 协议 ， 并 且 它 必须 维护 一 个 发 送 数据 的 副本 ， 直 到 数据 被 对 方 确认 。 

在 这 个 例子 中 ，ccp_output 调 用 函数 m_copy， 请 求 复制 1460 字 节 的 数据 ， 从 发 送 组 
存 起 始 位 置 开始 。 但 由 于 数据 被 存放 在 一 个 比 中 ，m_copy 创 建 一 个 mbuf( 图 2-25 的 右 下 侧 ) 并 
且 对 它 初始 化 ， 将 它 指 向 那个 已 存在 的 铸 的 正确 位 置 (此 例 中 是 徐 的 起 始 处 )。 这 个 mbuf 的 长 
度 是 1460， 虽 然 有 另外 588 字 节 的 数据 在 徐 中 。 我 们 所 示 的 这 个 mbuf 链 的 长 度 是 1514， 包 插 
以 太 网 首部 、 耻 首部 和 TCP 首 部 。 

在 图 2-25 的 右 下 侧 我 们 还 显示 了 这 个 mbuf 包 含 一 个 分 组 首部 ， 但 它 不 是 链 中 的 

第 一 个 mbuf。 当 m_copy 复 制 一 个 包含 一 个 分 组 首部 的 mbuf 并 且 从 原来 mbuf 的 起 始 

地 址 开始 复制 时 ， 分 组 首部 也 被 复制 下 来 。 因 为 这 个 mbuf 不 是 链 中 的 第 一 个 mbuf， 
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这 个 额外 的 分 组 首部 被 恕 略 。 而 在 这 个 额外 的 分 组 首部 中 的 m_pKkthdr .1len 的 值 
2048 也 被 忽略 。 


sSocket() mbufi) 













m pkthdr.len 2048 


m pkthdr.rcvif 













































TCP 发 送 缓存 
m ext.ext free|NULL 
m ext.ext size 
mbuf (t) mbuf{} 
[nexe woer 
|m-nextpkt | vort 
mien ^ |1460 
mctype MT. HEADER nctype — |MT PATA 
M PKTHDR m flags M PKTHDR|M EXT 
m pkthdr.len 1514 m pkthdr.len 2048 
, 有 要 发 送 的 | | [n pkthar crevit nurs |m-pkthár revit] auze 
TCP 报 文 段 [一 一 一 一 
的 搂 中 输出 LAG [m ext -ext free NULL 
队列 以 入 网 首部 ， - 
IP 首 部 ， m_ext .ext size|2048 
TCP E 


图 2-25 TCP 插 口 发 送 缓 在 和 接口 输出 队列 中 的 报 文 段 


这 个 共享 的 焦 避 免 了 内 核 将 数据 从 一 个 mbuf 复 制 到 另 一 个 mbuf 中 一 一 这 节约 了 很 多 开 
销 。 它 是 通过 为 每 个 簇 提 供 一 个 引用 计数 来 实现 的 ， 每 次 另 一 个 mbuf 指 向 这 个 敌 时 计数 加 1， 
当 一 个 徐 释 放 时 计数 减 1。 仅 当 引 用 计数 到 达 0 时 ， 被 这 个 矮 占 用 的 存储 器 才能 被 其 他 程序 使 
用 (见习 题 2.4)。 

例如 ， 当 图 2-25 底 部 的 mbuf 链 到 达 以 太 网 设备 驱动 程序 并 且 它 的 内 容 已 被 复制 给 这 个 设 
备 时 ， 驱 动 程序 调用 m_freem。 这 个 函数 释放 带 有 协议 首部 的 第 一 个 mbuf， 并 注意 到 链 中 第 
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二 个 mbuf 指 向 一 个 给。 铸 引 用 计数 减 1， 但 由 于 它 的 值 变 成 了 1， 它 仍然 保存 在 存储 器 中 。 它 
不 能 被 释放 ， 因 为 它 仍 在 TCP 发 送 缓存 中 。 


aocket {} mbuf() mbuf() 











NULL 


mien 2048 [aien |2048 


m data : 

m type MT DATA 

m flags M-ERTADR | 
m pkthdr.len 2048 
m pkthdr.rcvif|NULL 
m ext.ext buf 


m ext.ext free|NULL 
2048 







€ erre 


De 












m pkthdr.rcvif|NULL 


m ext.ext free|NULL 
|m ext.ext size 2048 


















m ext.ext size 
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A. mbufí) mbuf{} 
m. m next 十 一 
m nextpkt ; m nextpkt NULL 
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| m flags 
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m ext.ext size 


以 太 网 首部 ， 
IP 首 部 ， 
TCP 首 部 




















图 2-26 用 于 发 送 1460 字 节 TCP 报 文 段 的 mbuf 链 


继续 我 们 的 例子 ， 由 于 在 发 送 缓 在 中 剩余 的 588 字 节 不 能 组 成 一 个 报 文 段 ， 上 cp--outpPut 
在 把 1460 字 节 的 报 文 自传 给 IP 后 返回 (在 第 26 章 我 们 要 详细 说 明 在 这 种 条 件 下 tcp_output 发 
送 数 据 的 细节 )。 插 口 层 继续 处 理 来 自 应 用 程序 的 数据 : 剩 下 的 2048 字 节 被 存放 到 一 个 带 有 一 
个 铸 的 mbuf 中 ，TCP 发 送 例 程 再 次 被 调用 ， 并 且 新 的 mbuf 被 追加 到 插口 发 送 缓存 中 。 因 为 能 
发 送 一 个 完整 的 报 文 段 ， tcp_output 建 立 另 一 个 带 有 协议 首部 和 1460 字 节 数 据 的 mbuf 链 表 。 
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m_copy 的 参数 指定 了 1460 字 节 的 数据 在 发 送 缓存 中 的 起 始 位 移 和 长 度 (1460 字 节 )。 这 显示 在 
图 2-26 中 ， 并 假设 这 个 mbuf 链 在 接口 输出 队列 中 (这 个 链 中 的 第 一 个 mbuf 的 长 度 反 映 了 以 太 网 
首部 、IP 首 部 及 TCP 首 部 )。 

这 次 1460 字 节 的 数据 来 自 两 个 秘 : 前 588 字 节 来 自发 送 缓存 的 第 一 个 簿 而 后 面 的 872 字 节 
来 自发 送 缓存 的 第 二 个 化 。 它 用 两 个 nbuf 来 存放 1460 字 节 ， 但 m_copy 还 是 不 复制 这 1460 字 
节 的 数据 一 一 它 引用 已 存在 的 簇 。 

这 次 我 们 没有 在 图 2-26 右 下 便 的 任何 mbuf 中 显示 一 个 分 组 首部 。 原 因 是 调用 

m_copy 的 起 始 位 移 为 索 。 但 在 播 口 发 送 缓存 中 的 第 二 个 mbuf 包 含 一 个 分 组 首部 ， 而 

不 是 链 中 的 第 一 个 mbuf。 这 是 函数 sosend 的 特点 ， 这 个 额外 的 分 组 首部 被 简单 地 忽 

咯 了 。 


我 们 在 通 篇 中 会 多 次 遇 到 函数 m_copy。 虽 然 这 个 名 字 隐 含 着 对 数据 进行 物理 复制 ， 但 如 
果 数 据 被 包含 在 一 个 徐 中 ， 却 是 仅 引 用 这 个 徐 而 不 是 复制 。 


2.10 其 他 选择 


mbuf 远 非 完 美 ， 并 且 时 常 遭 到 批评 。 但 不 管 怎样 ， 它 们 形成 了 所 有 今天 正 使 用 着 的 伯 克 
利 联 网 代码 的 基础 。 

一 种 由 Van Jacobson [Partridge 1993] 完 成 的 Internet 协 议 的 研究 实现 ， 它 废除 了 支持 大 量 
连续 缓存 的 复杂 的 mbuf 数 据 结构 。[Jacobson 1993] 提 出 了 一 种 速度 能 提高 一 到 两 个 数量 级 的 
改进 方案 ， 还 包括 其 他 改进 ， 及 废除 mbuf。 

这 个 mbuf 的 复杂 性 是 一 种 权衡 ， 以 避免 分 配 大 的 固定 长 度 的 缓存 ， 这 样 的 大 缓存 很 少 能 
被 装 满 。 而 在 这 种 情况 下 ，mbuf 要 进行 设计 ， 一 个 VAX-11/780 有 4 光 存 储 器 ， 是 一 个 大 系统 ， 
并 且 存 储 器 是 昂贵 的 资源 ， 需 要 仔细 分 配 。 今 天 存储 器 已 不 昂贵 了 人 ， 而 焦点 已 经 转向 更 高 的 
性 能 和 代码 的 简单 性 。 

mbuf 的 性 能 基于 存放 在 mbuf 中 数据 量 。[Hutchinson and Peterson 1991] 显 示 了 处 理 mbuf 的 
时 间 与 数据 量 不 是 线性 关系 。 


2.11 小 结 


在 本 书 几 乎 所 有 的 函数 中 我 们 都 会 遇 到 mbuf。 它 们 的 主要 用 途 是 在 进程 和 网 络 接口 之 间 
传递 用 户 数据 时 用 来 存放 用 户 数据 ， 但 mbuf 还 用 于 保存 其 他 各 种 数据 : 源 地 址 和 目标 地 址 、 
插口 选项 等 等 。 

根据 M_PKTHDR 和 M_EXT 标 志 是 否 被 设置 ， 这 里 有 4 种 类 型 的 mbuf: 

。 无 分 组 首部 ，mbuf 本 身 带 有 0~108 字 市 数据 ; 

。 有 分 组 首部 ，mbuf 本 身 带 有 0~100 字 节 数 据 ; 

。 无 分 组 首部 ， 数 据 在 徐 ( 外 部 缓存 ) 中 ; 

。 有 分 组 首部 ， 数 据 在 秘 ( 外 部 缓存 ) 中 。 

我 们 查看 了 几 个 mbuf 宏 和 函数 的 源 代 码 ， 但 不 是 所 有 的 mbuf 例 程 源 代 码 。 图 2-19 和 图 2-20 
提供 了 所 有 我 们 在 本 书 中 遇 到 的 mbuf 例 程 的 函数 原型 和 说 明 。 

查看 了 我 们 要 遇 到 的 两 个 函数 的 操作 : m_devget， 很 多 网 络 设 备 驱 动 程序 调用 它 来 存 
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储 一 个 收 到 的 帧 ; m_pullup， 所 有 输入 例 程 调用 它 把 协议 首部 连续 放置 在 一 个 mbuf 中 。 

由 一 个 mbuf 指 向 的 徐 ( 外 部 缓存 ) 能 通过 m_copy 被 共享 。 例如， 用 于 TCP 输 出 ， 因 为 一 个 
被 传输 的 数据 的 副本 要 被 发 送 端 保存 ， 直 到 数据 被 对 方 确认 。 比 起 进行 物理 复制 来 说 ， 通 过 
引用 计数 ， 共 享 徐 提高 了 性 能 。 


习题 


2.1 在 图 2-9 中 定义 了 M_COPYFLAGS。 为 什么 不 复制 标志 M_EXT? 
22 在 2.6 节 中 ， 我 们 列 出 了 两 个 m_pullup 失 败 的 原因 。 实 际 上 有 三 个 原因 。 查 看 这 个 
函数 的 源 代码 (附录 B)， 并 发 现 另外 一 个 原因 。 
2.3 为 避免 宏 Qtom 遇 到 在 2.6 节 中 我 们 所 讨论 的 问题 一 一 当 数据 在 徐 中 时 ， 为 什么 不 仅 
仅 给 每 个 答 加 一 个 指向 mbuf 的 回 指 指针 ? 
2.4 既然 一 个 mbuf 答 的 大 小 是 2 的 圭 ( 典 型 的 是 1024 或 2048)， 徐 内 的 空间 不 能 用 于 引用 计 
数 。 查 看 Net/3 的 源 代码 (附录 B)， 并 确定 这 些 引 用 计数 存储 在 什么 地 方 。 
2.5 在 图 2-5 中 ， 我 们 注意 到 两 个 计数 器 m_drops 和 m_wait 现 在 没有 实现 。 修 改 mbuf 例 
_ 程 增加 这 些 计数 器 。 


第 3 章 接口 m 


3.1 引言 


本 章 开 始 讨论 Net/3 在 协议 栈 底部 的 接口 层 ， 它 包括 在 本 地 网 上 发 送 和 接收 分 组 的 硬件 与 
软件 。 

我 们 使 用 术语 设备 驱动 程序 来 表示 与 硬件 及 网 络 接口 (或 仅仅 是 接口 ) 通 信 的 软件 ， 网 络 接 
口 是 指 在 一 个 特定 网 络 上 硬件 与 设备 驱动 器 之 间 的 接口 。 

Net/3 接 口 层 试图 在 网 络 协议 和 连接 到 一 个 系统 的 网 络 设备 的 驱动 器 间 提 供 一 个 与 便 件 无 
关 的 编程 接口 。 这 个 接口 层 为 所 有 的 设备 提供 以 下 支持 : 

。 一 套 精 心 定义 的 接口 函数 ; 

* 一 套 标准 的 统计 与 控制 标志 ; 

。 一 个 与 设备 无 关 的 存储 协议 地 址 的 方法 ; 

*。 一 个 标准 的 输出 分 组 的 排队 方法 。 

这 里 不 要 求 接口 层 提 供 可 靠 的 分 组 传输 ， 仅 要 求 提供 最 大 努力 (best-effort) 的 服务 。 更 高 
协议 层 必 须 弥补 这 种 可 靠 性 缺陷 。 本 章 说 明 为 所 有 网 络 接口 维护 的 通用 数据 结构 。 为 了 说 明 
相关 数据 结构 和 算法 ， 我 们 参考 Net/3 中 三 种 特定 的 网 络 接 日: 

1) 一 个 AMD 7990 LANCE 以 太 网 接口 : 一 个 能 广播 局 域 网 的 例子 。 

2) 一 个 串 行 线 IP(SLIP) 接 口 : 一 个 在 异步 串 行 线 上 的 点 对 点 网 络 的 例子 。 

3) 一 个 环 回 接口 : 一 个 逻辑 网 络 把 所 有 输出 分 组 作为 输入 返回 。 


3.2 代码 介绍 
通用 接口 结构 和 初始 化 代码 可 在 三 个 头 文件 和 两 个 C 文 件 中 找到 。 在 本 章 说 明 的 设备 专用 
初始 化 代码 可 在 另外 三 个 C 文 件 中 找到 。 所 有 的 8 个 文件 都 列 于 图 3-1 中 。 
x dt 


sys/socket.h 地 址 结构 定义 
net/if.h 接口 结构 定义 
net/if dl.h 链 路 层 结构 定义 


kern/init main.c 系统 和 接口 初始 化 
net/if.c 通用 接口 代码 

net/if loop.c 3f Inl ik eg Hz) ERE 
net/if sl.c SLIPi& & Ji 3j FETE 
hp300/dev/if le.c LANCE 以 大 网 设备 驱动 程序 





图 3-1 本 章 讨论 的 文件 


3.2.1 全 局 变量 
在 本 章 中 介绍 的 全 局 变量 列 于 图 3-2 中 。 
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pdevinit struct pdevinit[] | fü A4mSLIPRUAN [e] n 26 (08 c c 48. 
ifnet struct ifnet * ifnet 结 构 的 列表 的 表 头 
ifnet addrs struct ifaddr ** 指向 链 路 层 接 口 地 址 的 指针 数组 


if indexlim i 数组 ifnet_aqars 的 大 小 
if index j 上 一 个 配置 接口 的 索引 
ifqmaxlen i 接口 输出 队列 的 最 大 值 
hz i 这 个 系统 的 时 钟 频率 (次 / 秒 ) 


图 3-2 本 章 中 介绍 的 全 局 变量 





3.2.2 SNMP 变 量 


NetV3 内 核 收集 了 大 量 的 各 种 联网 统计 。 在 大 多 数 章节 中 ， 我 们 都 要 总 结 这 些 统计 并 说 明 
它们 与 定义 在 简单 网 络 管理 协议 信息 库 (SNMP MIB-ID 中 的 标准 TCP/ 下 信息 和 统计 之 间 的 关 
X. RFC 1213 [McCloghrie and Rose 1991] 说 明了 SNMP MIB-I， 它 组 织 成 如 图 3-3 所 示 的 10 
个 不 同 的 信息 组 。 


系统 通用 信息 
Interfaces 网 络 接口 信息 
Address Translation 网 络 地 址 到 硬件 地 址 的 映射 表 ( 不 推荐 使 用 ) 
IP 下 协议 信息 


ICMP ICMP 协 议 信 息 
TCP TCP 协 议 信息 
UDP UDP 协议 信息 
EGP EGP 协 议 信 息 
Transmission 媒体 专用 信息 
SNMP SNMP 协 议 信 息 





图 3-3 MIB-II 中 的 SNMP 组 


Net/3 并 不 包括 一 个 SNMP 代 理 。 一 个 针对 Net/3 的 SNMP 代 理 是 作为 一 个 进程 来 实现 的 ， 
它 根 据 SNMP 的 要 求 通过 2.2 节 描述 的 机 制 来 访问 这 些 内 核 统计 。 
Net/3 收 集 大 多 数 MIB-I 变 量 并 且 能 被 SNMP 代 理 直 接 访问 ， 而 其 他 的 变量 则 要 通过 间接 
的 方式 来 获得 。MIB-II 变 量 分 为 三 类 : (1) 简 单 变量 ， 例 如 一 个 整数 值 、 一 个 时 间 翼 或 一 个 字 
d$; (2) 简 单 变 量 的 列表 ， 例如 一 个 单独 的 路 由 项 或 一 个 接口 描述 项 ; (3) 表 的 列表 ， 例 如 整 
个 路 由 表 和 所 有 接口 实体 的 列表 。 
ISODE 包 含有 一 个 NeU3 SNMP 代 理 例 子 。ISODE 的 信息 见 附录 B。 


图 3-4 所 示 的 是 一 个 为 SNMP 接 口 组 维护 的 简单 变量 。 我 们 在 后 面 的 图 4-7 中 描述 SNMP 接 


口 表 。 


图 3-4 在 接口 组 中 的 一 个 简单 的 SNMP 变 量 











if_index 是 系统 中 最 后 一 个 接口 的 索引 值 ， 并 且 起 始 | 
为 0; 加 1 来 获得 系统 中 接口 个 数 ifNumper 
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3.3 ifnet 结 构 


结构 ifnet 中 包含 所 有 接口 的 通用 信息 。 在 系统 初始 化 期 间 ， 分 别 为 每 个 网 络 设备 分 配 
一 个 独立 的 ifnet 结 构 。 每 个 tfnet 结 构 有 一 个 列表 ， 它 包含 这 
个 设备 的 一 个 或 多 个 协议 地 址 。 图 3-5 说 明了 一 个 接口 和 它 的 地 址 EZE 
之 间 的 关系 。 

在 图 3- 5 中 的 楼 口 显示 了 3 个 存放 在 1 fadar 结 吉 构 中 的 协议 地 
址 。 虽 然 一 些 网 络 接口 ， 例 如 SLIP， 仅 支持 一 个 协议 ;而 其 他 接 [ eaart) - 
口 ， 如 以 太 网 ， 支 持 多 个 协议 并 需要 多 个 地 址 。 例 如 ， 一 个 系统 [LT 
可 能 使 用 一 个 以 太 网 接口 同时 用 于 Internet 和 OSI 两 个 协议 。 一 
类 型 字段 标识 每 个 以 太 网 帧 的 内 容 ， 并 且 因 为 Internet 和 OSI 协议 (Ley 
使 用 不 同 的 编 址 方式 ， 以 太 网 接口 必须 有 一 个 Internet 地 址 和 一 个 [ i0 d. 
OSI 地 址 。 所 有 地 址 用 一 个 链表 链接 起 来 (图 3-5 右 侧 的 箭头 )， 并 
且 每 个 结构 包含 一 个 回 指 指针 指向 相关 的 ifnet 结 构 ( 图 3-5 左 侧 图 3-5 每 个 ifnet 结 构 有 个 
的 箭头 )。 ifaddr 结 构 的 列表 

可 能 一 个 网 络 接口 支持 同一 协议 的 多 个 地 址 。 例 如 ， 在 Net/3 中 可 能 为 一 个 以 太 网 接口 分 
配 两 个 Internet 地 址 。 

这 个 特点 第 一 次 是 出 现在 Net/2 中 。 当 为 一 个 网 络 重 编 地 址 时 ， 一 个 接口 有 两 个 
IP 地 址 是 有 用 的 。 在 过 小 期 间 ， 接 口 可 以 接收 老 地 址 和 新 地 址 的 分 组 。 


结构 ifnet 比 较 大 ， 我 们 分 五 个 部 分 来 说 明 : 





- 实现 信息 
。 硬 件 信息 
“ 接口 统计 
。 国 数 指针 
输出 队列 
图 3-6 所 示 的 是 包含 在 结构 ifnet 中 的 实现 信息 。 
- if.h 
80 struct ifnet ( 
81 struct ifnet *if_next; /* all struct ifnets are chained */ 
82 struct ifaddr *if addrlist; /* linked list of addresses per if */ 
83 char *if name; /* name, e.g. ‘le’ or 'lo' */ 
84 short if unit; /* sub-unit for lower level driver */ 
85 u short if index; /* numeric abbreviation for this if  */ 
86 short if flags; /* Figure 3.7 */ 
87 short if timer; /* time 'til if watchdog called */ 
88 int if pcount; /* number of promiscuous listeners */ 
89 caddr t if bpf; /* packet filter structure */ ifh 
- 7 iJ. 


， 图 3-6 :ifnet 结 构 : 实现 信息 


80-82 if_next 把 所 有 接口 的 i1fnet 结 构 链接 成 一 个 链表 。 函数 if_attach 在 系统 初始 
化 期 间 构 造 这 个 链表 。if_addr1list 指 向 这 个 接口 的 ifadar 结 构 列表 (图 3-16)。 每 个 
ifaddr 结 构 存 储 一 个 要 用 这 个 接口 通信 的 协议 的 地 址 信息 。 

1. 通用 接口 信息 
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83-86 if_name 是 一 个 短 字符 串 ， 用 于 标识 接口 的 类 型 ， 而 if_unit 标 识 多 个 相同 类 型 的 
实例 。 例 如 ， 一 个 系统 有 两 个 SLIP 接 口 ， 每 个 都 有 -- 个 if_name， 包 含 两 字 节 的 “s1” 和 
一 个 if_unit。 对 第 一 个 接口 ，if_unit 为 0; 对 第 二 个 接口 为 1。if_index 在 内 核 中 唯一 
地 标识 这 个 接口 ， 这 在 sysct1i 系 统 调用 ( 见 19.14 节 ) 以 及 路 由 域 中 要 用 到 。 
有 了 时 一 个 接口 并 不 被 一 个 协议 地 址 唯一 地 标识 。 例 如 ， 几 个 SLIP 连 接 可 以 有 同 

样 的 本 地 IP 地 址 。 在 这 种 情况 下 ，if_index 明 确 地 指明 这 个 接口 。 

if_flags 表 明 接 口 的 操作 状态 和 属性 。 一 个 进程 能 检查 所 有 的 标志 ， 但 不 能 改变 在 图 3- 
7 中 “内 核 专 用 ” 列 中 作 了 记号 的 标志 。 这 些 标志 用 4.4 节 讨论 的 命令 SIOCGIFFLAGS 和 
SIOCSIFFLAGS 来 访问 。 


IFF_BROADCAST 
IFF MULTICAST 
IFF POINTOPOINT 
IFF LOOPBACK 
IFF OACTIVE 

IFF RUNNING 

IFF SIMPLEX 


IFF LINKO 
IFF LINKI 
IFF LINKZ 


IFF ALLMULTI 
IFF DEBUG 

IFF NOARP 

IFF NOTRAILERS 
IFF PROMISC 
IFF UP 





Tr HH TIL IS 

接口 支持 多 播 

接口 用 十 点 对 点 网 络 

接口 用 十 坏 回 网 络 

正在 传输 数据 
资源 已 分 配给 这 个 接口 

接口 不 能 接收 它 自己 发 送 的 数据 
ihi e d EE X 

由 设备 驱动 程序 定义 

由 设备 驱动 程序 定义 

接 门 正 接 收 所 有 多 桥 分 组 

这 个 接口 允许 调试 

在 这 个 接站 上 不 使 用 ARP 协 议 
避免 使 用 尾部 封装 

接 门 接收 所 有 网 络 分 组 

接 f1 示 在 工作 


图 3-7 if_fliags 和 值 


IFF_BROADCAST 和 IFF_POINTOPOINT 标 志 是 互 斥 的 。 
宏 IFF_CANTCHANGE 是 对 所 有 在 “内 核 专 用 ” 列 中 作 了 记号 的 标志 进行 按 位 
“或 ”操作 。 


设备 专用 标志 (IFF_LINKXx) 对 于 一 个 依赖 这 个 设备 的 进程 可 能 是 可 修改 的 ， 也 

可 能 是 不 可 修改 的 。 例 如， 图 3-29 显 示 了 这 些 标 志 是 如 何 被 SLIP 驱 动 程序 定义 的 。 

2. 接口 时 钟 
87 if_timer 以 秒 为 单位 记录 时 间 ， 直 到 内 核 为 此 接口 调用 函数 if_watchdog 为 止 。 这 个 
函数 用 于 设备 驱动 程序 定时 收集 接口 统计 ， 或 用 于 复位 运行 不 正确 的 硬件 。 

3. BSD 分 组 过 滤器 
88-89 ”下面 两 个 成 员 ，if_pcount 和 if_bpf， 支 持 BSD 分 组 过 滤器 (BPF)。 通 过 BPF， 一 
个 进程 能 接收 由 此 接口 传输 或 接收 的 分 组 的 备份 。 当 我 们 讨论 设备 驱动 程序 时 ， 还 要 讨论 分 
组 是 如 何 通过 BPF 的 。BPF 在 第 31 章 讨论 。 

ifnet 结 构 的 下 一 个 部 分 显示 在 图 3-8 中 ， 它 用 来 描述 接口 的 硬件 特性 。 





90 struct if data { 

91 /* generic interface information */ 

92 u char ifi type; /* Figure 3.9 */ 

93 u char ifi addrlen; /* media address length */ 

94 u char ifi hdrlen; /* media header length */ 

95 u long ifi mtu; /* maximum transmission unit */ 
96 u long ifi metric; /* routing metric (external only) */ 
97 u long ifi, baudrate; /* linespeed */ 

/* oteu ifnet members */ 

138 #define if mtu if data.ifi mtu 
139 #define if type if data.ifi type 


140 #define if addrlen if data.ifi addrlen 
141 #define if hdrlen if data.ifi hdrlen 
142 $define if metric if data.ifi metric 
143 £define if baudrate if,data.ifi baudrate 


ifh 
图 3-8 ifnet 结 构 : 接口 特性 


Net/3 和 本 书 使 用 第 138 行 ~143 行 的 #define 语 身 定义 的 短语 来 表示 ifnet 的 成 
A. 
4. 接口 特性 
90-92 if_type 指 明 接 口 支持 的 硬件 地 址 类 型 。 图 3-9 列 出 了 net/if_types.h 中 几 个 公 
共 的 if_type 值 。 


IFT OTHER 
IFT ETHER 
IFT ISO88023 IEEE 802.3 以 大 网 (CSMA/CD) 


IFT TSO88025 IEEE 802.5 今 牌 环 
IFT_FDDI 光纤 分 布 式 数据 接口 
IFT LOOP 环 问 接 口 

IFT SLIP 串 行 线 IP 





图 3-9 if type: 数据 链 路 类 型 


93-94 if_addrlen 是 数据 链 路 地 址 的 长 度 ， 而 if_hdrlen 是 由 硬件 附加 给 任何 分 组 的 首 
部 的 长 度 。 例如， 以 太 网 有 一 个 长 度 为 6 字 节 的 地 址 和 一 个 长 度 为 14 字 节 的 首部 (图 4-8)。 
95 if_mtu 是 接口 传输 单元 的 最 大 值 : 接口 在 一 次 输出 操作 中 能 传输 的 最 大 数据 单元 的 字 节 
数 。 这 是 控制 网 络 和 传输 协议 创建 分 组 大 小 的 重要 参数 。 对 于 以 太 网 来 说 ， 这 个 值 是 1500。 
96-97 if_metric 通 常 是 0; 其 他 更 大 的 值 不 利于 路 由 通过 此 接口 。if_baudqrate 指 定 接 
口 的 传输 速率 ， 只 有 SLIP 接 口才 设置 它 。 

接口 统计 由 图 3-10 中 显示 的 下 一 组 ifnet 接 口 成 员 来 收集 。 

5. 接口 统计 
98-111 这 些 统计 大 多 数 是 不 言 自明 的 。 当 分 组 传输 被 共享 媒体 上 其 他 传输 中 断 时 ， 
if_collisions 加 1。if_noproto 统 计 由 于 协议 不 被 系统 或 接口 支持 而 不 能 处 理 的 分 组 数 
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(例如 : 仅 支 持 IP 的 系统 接收 到 一 个 OSI 分 组 )。 如 果 一 个 非 IP 分 组 到 达 一 个 SLIP 接 口 的 输出 队 


列 时 ，if_noproto 加 1。 


98 

99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 


/* volatile statistics */ 
u long ifi, ipackets; 
u long ifi. ierrors; 
u long ifi, opackets; 
u long ifi oerrors; 
u long ifi collisions; 
u long ifi,.ibytes; 
u.long ifi obytes; 
u long ifi imcasts; 
u long ifi, omcasts; 
u long ifi, igdrops; 
u.long ifi noproto; 
struct 
) if data; 


/* other ifnet members 


144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 


if data. 
if data. 
if data. 
if data. 


if ipackets 
if ierrors 

if, opackets 
if oerrors 

if collisions 
if ibytes if data. 
if, obytes if data. 
if imcasts if data. 
if omcasts if data. 
if iqdrops if data. 
if noproto if data. 
if lastchange 


tdefine 
#def ine 
#def ine 
#def ine 
tdefine 
tdefine 
#def ine 
#def ine 
#def ine 
#def ine 
#define 
#def ine 





/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/* 
/[* 


/* 


timeval ifi lastchange; 


ifh 
#packets received on interface */ 
#input errors on interface */ 
*packets sent on interface */ 
output errors on interface */ 
$collisions on csma interfaces */ 
*bytes received */ 
#bytes sent */ 
$Ápackets received via multicast */ 
#packets sent via multicast */ 
*fpackets dropped on input, for this 
interface */ 
fpackets destined for unsupported 
protocol */ 
/* last updated */ 





ifi ipackets 

ifi ierrors 

ifi opackets 

ifi oerrors 

if data.ifi collisions 
ifi ibytes 

ifi obytes 

ifi imcasts 

ifi omcasts 

ifi iqdrops 

ifi, noproto 

if data.ifi lastchange 


ifh 


图 3-10 结构 ifnet: 接口 统计 


这 些 统计 在 Net/1 中 不 是 ifnet 结 构 的 一 部 分 。 它 们 被 加 入 来 支持 接口 的 标准 


SNMP MIB-II € €. 


if_iqdrops 仅 被 SLIP 设 备 驱 动 程序 访问 。 当 IF_DROP 被 调用 时 ，SLIP 和 其 
他 网 络 驱 动 程序 把 if_snd.ifq_drops (图 3-13) 加 1。 在 SNMP 统 计 加 入 前 ， 
ifq_drops 就 已 经 存在 于 BSD 罗 件 中 了 。ISODE SNMP 代 理 忽略 if_iadrops 而 使 


用 if_snd.ifq_drops。 


6. AERAR 
112-113 


if_lastchange 记 录 任 何 统计 改变 的 最 近 时 间 。 


Net/3 和 本 书 又 一 次 用 从 144 行 到 1$$ 行 的 #define 语 向 定义 的 短 名 来 指明 ifnet 


结构 ifnet 的 下 一 个 部 分 ， 显 示 在 图 3-11 中 ， 它 包含 指向 标准 接口 层 户 数 的 指针 ， 它 们 
把 设备 专用 的 细节 从 网 络 层 分 离 出 来 。 每 个 网 络 接口 实现 这 些 适 用 于 特定 设备 的 函数 。 
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ifh 
114 /* procedure handles */ 
115 int (*if init) /* init routine */ 
116 (int); 
117 int (*if output) /* output routine (enqueue) */ 
118 (struct ifnet *, struct mbuf *, struct sockaddr *, 
119 struct rtentry *); 
120 int (*if start) /* initiate output routine */ 
121 (struct ifnet *); 
122 int (*if done) /* output complete routine */ 
123 (struct ifnet *); /* (XXX not used; fake prototype) */ 
124 int (*if ioctl) /* ioctl routine */ 
125 (struct ifnet *, int, caddr t); 
126 int (*if reset) 
127 (int); /* new autoconfig will permit removal */ 
128 int (*if watchdog) /* timer routine */ 
129 (int); ifh 


图 3-11 结构 ifnet: 接口 过 程 


7. 接口 函数 
114-129 ”在 系统 初始 化 时 ， 每 个 设备 驱动 程序 初始 化 它 自己 的 ifnet 结 构 ， 包 括 7 个 函数 
指针 。 图 3-12 说 明了 这 些 通用 暑 数 。 
我 们 在 Net/3 中 常会 看 到 注释 /* XXX */。 它 提醒 读者 这 段 代 码 是 易 混 清 的 ， 包 
括 不 明确 的 副作用 ， 或 是 一 个 更 难 问题 的 快速 解决 方案 。 在 这 里 ， 它 指示 if_done 
不 在 Net/3 中 使 用 。 


if_init 初始 化 接口 
if_output 对 妆 传 输 的 输出 分 组 进行 排队 
if start 启动 分 组 的 传输 


if done 传输 完成 后 的 清除 (未 用 ) 
if ioctl 处 理 WO 控 制 命令 
if_reset 复位 接口 设备 

if watchdog 周期 性 接口 例 程 





图 3-12 结构 ifnet: 国 数 指针 


在 第 4 章 我 们 要 查看 以 太 网 、SLIP 和 环 回 接口 的 设备 专用 函数 ， 内 核 通过 ifnet 结 构 中 的 
这 些 指针 直接 调用 它们 。 例 如 ， 如 果 ifp 指 向 一 个 ifnet 结 构 ， 

(*ifp-»if start)(ifp) 
调用 这 个 接口 的 设备 驱动 程序 的 1f_start 函数 。 

结构 ifnet 中 剩 下 的 最 后 一 个 成 员 是 接口 的 输出 队列 ， 如 图 3-13 所 示 。 
130-137 if_snd 是 接口 输出 分 组 队列 ， 每 个 接口 有 它 自 己 的 ifnet 结 构 ， 即 它 自己 的 输 
出 队列 。ifq_head 指 向 队列 的 第 一 个 分 组 (下 一 个 要 输出 的 分 组 )，ifq_tail 指 向 队列 最 后 
一 个 分 组 ，if_len 是 当前 队列 中 分 组 的 数目 ， 而 ifq_maxlen 是 队列 中 允许 的 缓存 最 大 个 
数 。 除 非 驱 动 程序 修改 它 ， 这 个 最 大 值 被 设置 为 50( 来 源 于 全 局 整数 fqmaxlen， 它 在 编译 
期 间 根 据 IFQ._MAXLEN 初 始 化 而 来 )。 队 列 作为 一 个 mbuf 链 的 链表 来 实现 。ifq_drops 统 计 
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因为 队列 满 而 丢弃 的 分 组 数 。 图 3-14 列 出 了 那些 访问 队列 的 宏和 函数 。 


- ifh 
130 Struct ifqueue ( 
131 Struct mbuf *ifq head; 
132 struct mbuf *ifq tail: 
133 int ifq len; /* current length of queue */ 
134 int ifq maxlen; /* maximum length of queue */ 
135 int ifq drops; /* packets dropped because of full queue */ 
136 ) if snd; /* output queue */ 
137 }; ifh 


图 3-13 结构 ifnet: 输出 队列 


IP QFULL ifaié di il 
int IF QFULL(struct ifqueue *ifg); 
IF_DROP 仅 将 与 铬 关联 的 ifq_dqarops 加 1。 这 个 和 名字 会 引起 误导 : UDHd EfRxTO 
void IF DROP(struct ifqueue *ifg); 


IF, ENQUEUE 把 分 组 站 追加 到 疙 队列 的 后 而 。 分 组 通过 mbuf 首 部 中 的 m_nextpkt 链 接 在 一 起 
void IF ENQUEUE(struct ifqueue *ifg, struct mbuf *m); 





rr PREPEND | 把 分 组 m 插 入 公 郊 队列 的 前 而 
void IF PREPEND(struct ifqueue *ifg, struct mbuf *m); 

IF DEQUEUE ifa lb GE 4 21. mE REDDA HERAUS. Wm A 
void IF DEQUEUE(struct ifqueue *ifg, struct mbuf *m); 


if qflush KA PARA PIC BH. (An. 4 EET T 
void if qflush(struct ifqueue *ifg); 














图 3-14 fiqueue 例 程 


前 5 个 例 程 是 定义 在 net/if.h 中 的 宏 ， 最 后 一 个 例 程 1f_qflush 是 定义 在 net/if.c 
中 的 一 个 函数 。 这 些 宏 经 常 出 现在 下 面 这 样 的 程序 语句 中 : 


s = splimp(); 
if (IF, QFULL(inq)) ( 


IF DROP(inq); /* queue is full, drop new packet */ 

m freemím); 
) else 

IF ENQUEUE(inq, m); /* there is room, add to end of queue */ 
Splx(s); 


这 段 代 码 试图 把 -个 分 组 加 到 队列 中 。 如 果 队列 满 ，IF_DROP 把 ifa_drops 加 1， 并 且 分 组 
被 丢弃 。 可 靠 协 议 如 TCP 会 重 传 丢弃 的 分 组 。 使 用 不 可 靠 协 议 ( 如 UDP) 的 应 用 程序 必须 自己 检 
测 和 处 理 重 传 。 
访问 队列 的 语 甸 被 splimp 和 splx 括 起 来 ， 阻 止 网 络 中 断 ， 并 且 防 止 在 不 确定 状态 时 网 
络 中 断 服务 例 程 访问 此 队列 。 
在 splx 之 前 调用 m_freem， 是 因为 这 段 mbuf 代 码 有 一 个 临界 区 运行 在 splimp 
级 别 上 。 若 在 m_freem 前 调用 splx， 在 m_freem 中 进入 另 一 个 临界 区 (2.5 节 ) 是 浪 
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3.4 ifaddr 结 构 


我 们 要 看 的 下 一 个 结构 是 接口 地 址 结构 ，ifaddr， 它 显示 在 图 3-15 中 。 每 个 接口 维护 一 
个 ifaddr 结 构 的 链表 ， 因 为 一 些 数据 链 路 ， 如 以 太 网 ， 支 持 多 于 一 个 的 协议 。 一 个 单独 的 
ifaddr 结 构 描述 每 个 分 配给 接口 的 地 址 ， 通 常 每 个 协议 一 个 地 址 。 支 持 多 地 址 的 另 一 个 原因 
是 很 多 协议 ， 包 括 TCP/IP， 支 持 为 单个 物理 接口 指派 多 个 地 址 。 虽 然 Net/3 支 持 这 个 特性 ， 但 
很 多 TCP/IP 实 现 并 不 支持 。 


ifh 
217 struct ifaddr ( 
218 struct ifaddr *ifa next; /* next address for interface */ 
219 struct  ifnet *ifa ifp; /* back-pointer to interface */ 
220 struct sockaddr *ifa addr; /* address of interface */ 
221 struct sockaddr *ifa dstaddr;  /* other end of p-to-p link */ 
222 tdefine ifa broadaddr ifa, dstaddr /* broadcast address interface */ 
223 struct  sockaddr *ifa netmask;  /* used to determine subnet */ 
224 void (*ifa rtrequest)(); /* check or clean routes */ 
225 u short ifa flags; /* mostly rt flags for cloning */ 
226 Short ifa refcnt; /* references to this structure */ 
227 int ifa metric; /* cost for this interface */ 
228 ); 
ifh 
图 3-15 结构 ifaddr 
217-219 结构 ifaddr 通 过 ifa_next 把 分 配给 ifnet{} 
bk. vi [i£ne —] o Egen 
一 个 接口 的 所 有 地 址 链接 起 来 ， 它 还 包括 一 个 指 回 








接口 的 ifnet 结 构 的 指针 ifa_ifp。 图 3-16 显 示 了 
结构 ifnet 与 ifaddr 之 间 的 关系 。 
220 ifa_addr 指 向 接口 的 一 个 协议 地 址 ， 而 
ifa_netmask 指 向 一 个 位 捧 码 ， 它 用 于 选择 
ifa_addr 中 的 网 络 部 分 。 地 址 中 表示 网 络 部 分 的 
比特 在 掩 码 中 被 设置 为 1， 地 址 中 表示 主机 的 部 分 
被 设置 为 0。 两 个 地 址 都 存放 在 sockaddr 结 构 中 
(3.5 节 )。 图 3-38 显 示 了 一 个 地 址 及 其 掩 码 结构 。 对 
于 耳 地 址 ， 掩 码 选择 耳 地 址 中 的 网 络 和 子 网 部 分 。 
221-223 ifa dstaddr(Z © B9 9» £ 
ifa_broadadqdr) 指 向 一 个 点 对 点 链 路 上 的 另 一 端 
的 接口 协议 地 址 或 指向 一 个 广播 网 中 分 配给 接口 的 
广播 地 址 (如 以 太 网 )。 接 口 的 1 fnet 结 构 中 互 斥 的 
两 个 标志 IFF_BROADCAST 和 IFF._POINTOPOINT 
(图 3-7) 指 示 接 口 的 类 型 。 
224-228 ifa rtrequest、ifa_flags 和 ifa_metric 支 持 接口 的 路 由 查找 。 
ifa_refcnt 统 计 对 结构 ifaddr 的 引用 。 宏 IFAFREE 仅 在 引用 计数 降 到 0 时 才 释 放 这 个 
结构 ， 例 如 ， 当 地 址 被 命令 SIOCDIFADDR ioct1 删 除 时 。 结 构 ifaddr 使 用 引用 计数 是 因 
为 接口 和 路 由 数据 结构 共享 这 些 结构 。 







图 3-16 结构 ijfnet 和 ifaddr 


if addrlist 
Mu" 
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如 果 有 其 他 对 ifaddr 的 引用 ，IFAFREE 将 计数 器 加 1 并 返回 。 这 是 一 个 通用 的 
方法 ， 除 了 最 后 一 个 引用 外 ， 它 避免 了 每 次 都 调用 一 个 函数 的 开销 。 如 果 是 最 后 一 
个 引用 ，IFRAFREBE 调 用 函数 ifafree， 来 释放 这 个 结构 。 


3.5 Sockaddr 结 构 


一 个 接口 的 编 址 信息 不 仅仅 只 包括 一 个 主机 地 址 。Net/3 在 通用 的 sockaddr 结 构 中 维护 
主机 地 址 、 广 播 地 址 和 网 络 掩 码 。 通 过 使 用 一 个 通用 的 结构 ， 将 硬件 与 协议 专用 的 地 址 细节 
相对 于 接口 层 隐藏 起 来 。 

图 3-17 显 示 的 是 这 个 结构 的 当前 定义 及 早期 BSD 版 的 定义 一 结构 osockaddr。 图 3-18 
说 明了 这 些 结构 的 组 织 。 


socket.h 
120 struct sockaddr ( 
121 u_char sa len; /* total length */ 
122 u_char sa, family; /* address family (Figure 3.19) */ 
123 char sa, data[14]; /* actually longer; address value */ 
124 ); 
271 struct osockaddr ( 
272 u short sa, family; /* address family (Figure 3.19) */ 
273 char Sa dataí14]; /* up to 14 bytes of direct address */ 
274 ); 
socket.h 


图 3-17 结构 sockaddr 和 osockadqdr 


family 
oT 00 0- 


1 1 14 字 节 


A 


? 1435 
图 3-18 结构 sockaddr 和 osockaddr (省 略 了 前 级 sa_) 
在 很 多 图 中 ， 我 们 省 略 了 成 员 名 中 的 公共 前 级 。 在 这 里 ， 我 们 省 略 了 sa_ Bid. 
1. Sockaddr 结 构 
120-124 ”每 个 协议 有 它 自己 的 地 址 格式 。Net/3 在 一 个 sockaddr 结 构 中 处 理 通用 的 地 址 。 
sa_len 指 示 地 址 的 长 度 (OSI 和 Unix 域 协议 有 不 同 长 度 的 地 址 ), sa_fami1ly 指 示 地 址 的 类 型 。 
图 3-19 列 出 了 地 址 族 (address family) 常 量 ， 其 中 包括 我 们 遇 到 的 。 
当 指 明 为 AF_UNSPEC 时 ,一 个 sockaddr 的 内 容 要 根据 情况 而 定 。 大 多 数 情况 
下 ， 它 包 金 一 个 以 太 网 硬件 地 址 。 
成 员 sa_len 和 sa_fami1ly 人 允许 协议 无 关 代 码 操 作 来 自 多 个 协议 的 变 长 的 sockaddr 结 
构 。 剩 下 的 成 员 sa_data， 包 含 一 个 协议 相关 格式 的 地 址 。sa_qata 定 义 为 一 个 14 字 市 的 数 
组 ， 但 当 sockaddr 结 构 覆 盖 更 大 的 内 存 空间 时 ，sa_qdata 可 能 会 扩展 到 253 字 节 。sa_len 
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sa_family 必 须 不 超过 256 字 节 。 一 一 二 一 一 一 一 | 





AF INET Internet 
这 是 C 语 言 的 一 种 通用 技术 ， 它 允许 程 序 员 把 | AF_ISO,AF_OSI | OSI 
一 个 结构 中 的 最 后 一 个 成 员 看 成 是 可 变 长 的 。 AF-UNTX Unix 
AF, ROUTE 路 由 表 
每 个 协议 定义 一 个 专用 的 sockaddr 结 构 ， 该 结构 AF_LINK 数据 链 路 
复制 成 员 sa_len 和 sa_family， 但 按 那个 协议 的 要 [SRE DRIED 


求 来 定义 成 员 sa_data。 存 储 在 sa_data 中 的 地 址 是 图 3-19 sa family E 
一 个 传输 地 址 ; 它 包含 足够 的 信息 来 标识 同一 主机 上 的 多 个 通信 端点 。 在 第 6 章 我 们 要 查看 
Internet 地 址 结构 sockaddr_in， 它 包含 了 一 个 下地 址 和 一 个 端口 导 。 

2. Gsoekaddr 结 构 
271-274 结构 osockadqar 是 4.3BSD Reno 版 本 以 前 的 sockaddr 定 义 。 因 为 在 这 个 定义 中 
一 个 地 址 的 长 度 不 是 显 式 地 可 用 ， 所 以 它 不 能 用 来 写 处 理 可 变 长 地 址 的 协议 无 关 代码 。OSI 协 
议 使 用 可 变 长 地 址 ， 为 了 包括 OSI 协 议 ， 使 得 在 Net/3 的 sockaddr 定 义 中 有 了 我 们 所 见 的 改 
变 。 结 构 osockaddr 是 为 了 支持 对 以 前 编译 的 程序 的 二 进 制 兼容 。 


在 本 书 中 我 们 省 略 了 二 进 制 兼容 代码 。 
3.6 ifnet 与 faddr 的 专用 化 


结构 ifnet 和 i faddr 包 含 适用 于 所 有 网 络 接口 和 协议 地 址 的 通用 信息 。 为 了 容纳 其 他 设 
备 和 协议 专用 信息 ， 每 个 设备 定义 了 并 且 每 个 协议 分 配 了 一 个 专用 化 版 本 的 1fnet 和 ifadar 
结构 。 这 些 专用 化 的 结构 总 是 包含 一 个 1fnet 或 1fadar 结 构 作 为 它们 的 第 一 个 成 员 ， 这 样 
无 须 考 虑 其 他 专用 信息 就 能 访问 这 些 公共 信息 。 

多 数 设备 驱动 程序 通过 分 配 一 个 专用 化 的 1ftnet 结 构 的 数组 来 处 理 同一 类 型 的 多 个 接口 ， 
但 其 他 设备 (例如 环 回 设备 ) 仅 处 理 一 个 接口 。 图 3-20 所 示 的 是 我 们 的 例子 接口 的 专用 化 ifnet 
结构 的 组 织 。 l 


le softc[0]: 


ifnet() 
} arpcom() 
以 太 网 le softc() 


Sl. softc[0]: 


loif: 


图 3-20 设备 相关 的 结构 中 的 ifnet 结 构 的 组 织 
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注意 ， 每 个 设备 的 结构 以 一 个 ifnet 开 始 ， 接 
下 来 全 是 设备 相关 的 数据 。 环 回 接 11 只 声名 了 一 个 
ifnet 结 构 ， 因 为 它 不 要 求 任何 设备 相关 的 数据 。 
在 图 3-20 中 ， 我 们 显示 的 以 太 网 和 SLIP 驱 动 程序 的 
结构 softc 带 有 数组 下 标 0， 因 为 两 个 设备 都 支持 
多 个 接口 。 任 何 给 定 类 型 的 接口 的 最 大 个 数 由 内 核 
建立 时 的 配置 参数 来 限制 。 

结构 arpcom( 图 3-26) 对 于 所 有 以 太 网 设备 是 通 
用 的 ， 并 且 包 含 地 址 解析 协议 (ARP) 和 以 太 网 多 播 
信息 。 结 构 1e_softc( 图 3-25) 包 含 专用 于 LANCE 
以 太 网 设备 驱动 器 的 其 他 信息 。 Internet 地 址 

每 个 协议 把 每 个 接口 的 地 址 信息 存储 在 一 个 专 
用 化 的 ifadqdzr 结 构 的 列表 中 。 以 太 网 协议 使 用 一 
个 in_ifaddr 结 构 (6.$ 节 )， 而 OSI 协议 使 用 一 个 
iso_ifaddr 结 构 。 另 外 ， 当 接口 被 初始 化 时 ， 内 OSI 地 二 
核 为 每 个 接口 分 配 了 一 个 链 路 层 地 址 ， 它 在 内 核 中 
标识 这 个 接口 。 

内 核 通 过 分 配 一 个 ifaddr 结 构 和 两 个 图 3-21 一 个 包含 链 路 层 地 址 、Internet 地 址 
sockaddr_d1 结 构 ( 一 个 是 链 路 层 地 址 本 身 ， 一 个 和 OSI 地 址 的 接口 地 址 列表 
是 地 址 掩 码 ) 来 构造 一 个 链 路 层 地 址 。 结 构 sockaqddr_dl 可 被 OSI、ARP 和 路 由 算法 访问 。 图 
3-21 显 示 的 是 一 个 带 有 一 个 链 路 层 地 址 、 一 个 Internet 地 址 和 一 个 OSI 地 址 的 以 太 网 接口 。3.11 
节 说 明了 链 路 层 地 址 (i faddr 和 两 个 sockaddr_1d 结 构 ) 的 构造 和 初始 化 。 


3.7 网 络 初始 化 概述 


所 有 我 们 说 明 的 结构 是 在 内 核 初始 化 时 分 配 和 互相 链接 起 来 的 。 在 本 节 我 们 大 致 概述 一 
下 初始 化 的 步骤 。 在 后 面 的 章节 ， 我 们 说 明 特 定 设 备 的 初始 化 步骤 和 特定 协议 的 初始 化 步骤 。 

有 些 设备 ， 例 如 SLIP 和 环 回 接口 ， 完 全 用 软件 来 实现 。 这 些 伪 设备 用 存储 在 全 局 
pdaevinit 数 组 中 的 一 个 pdevinit 结 构 来 表示 (图 3-22)。 在 内 核 配置 期 间 构造 这 个 数组 。 例 
如 : 


struct pdevinit pdevinit[] = { 
( slattach, 1 }, 
{ loopattach, 1 ), 


BERR bh 





(0,0) 
E 

device.h 

120 struct pdevinit ( 

121 void (*pdev attach) (int); /* attach function */ 

122 int pdev count; /* number of devices */ 

123 }; . 
device.h 





图 3-22 结构 pdevinit 


120-123 对 于 SLIP 和 环 回 接口 ， 在 结构 pdevinit 中 ，pdev_attach 分 别 被 设置 为 
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slattach 和 loopattach。 当 调用 这 个 attach 函 数 时 ，pqdev_count 作 为 传递 的 唯一 参数 ， 
它 指 定 创建 的 设备 个 数 。 只 有 一 个 环 回 设 备 被 创建 ， 但 如 果 管 理 员 适当 配置 SLIP 项 可 能 有 多 
个 SLIP 设 备 被 创建 。 

网 络 初 始 化 函数 从 main 开 始 显示 在 图 3-23 中 。 


- init main.c 
70 main(framep) 
71 void *framep; 
72 ( 
/* nonnetwork code * / 
96 cpu, startup(); /* locate and initialize devices */ 
/*nonnetwork code */ 
172 /* Attach pseudo-devices. (e.g., SLIP and loopback interfaces) */ 
173 for (pdev = pdevinit; pdev-»pdev attach !- NULL; pdev««) 
174 (*pdev-»pdev attach) (pdev-»pdev. count); 
175 /* 
176 * Initialize protocols. Block reception of incoming packets 
177 * until everything is ready. 
178 */ 
179 S = splimp(); 
180 ifinit(); /* initialize network interfaces */ 
181 domaininit(); /* initialize protocol domains */ 
182 Splx(s); 
?nonnetwork 
231 /* The scheduler is an infinite loop. */ 
232 Scheduler(); 
233 /* NOTREACHED */ 
234 } ll . 
init, main.c 





图 3-23 main: 网 络 初始 化 
70-96 cpu_startup 查 找 并 初始 化 所 有 连接 到 系统 的 硬件 设备 ， 包 括 任何 网 络 接口 。 
97-174 在 内 核 初始 化 硬件 设备 后 ， 它 调用 包含 在 pdevinit 数 组 中 的 每 个 bdev_attach 
图 数 。 
175-234 ifinit 和 domaininit 完 成 网 络 接 口 和 协议 的 初始 化 ， 并 且 scheduler 开 始 内 
核 进程 调 度 。ifinit 和 domaininit 在 第 7 章 讨 论 。 
在 下 面 几 节 中 ， 我 们 说 明 以 太 网 、SLIP 和 环 回 接口 的 初始 化 。 


3.8 以 太 网 初始 化 


作为 cpu_startup 的 一 部 分 ， 内 核查 找 任何 连接 的 网 络 设备 。 这 个 进程 的 细节 超出 了 本 
书 的 范围 。 一 旦 一 个 设备 被 识别 ， 一 个 设备 专用 的 初始 化 函数 就 被 调用 。 图 3-24 显 示 的 是 我 
们 的 3 个 例子 接口 的 初始 化 函数 。 
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化 的 ifnet 结 构 ， 并 调用 if_attach 把 这 个 结构 播 入 
到 接口 链表 中 。 显 示 在 图 3-25 中 的 结构 le_softc 是 我 
们 的 例子 以 太 网 驱动 程序 的 专用 化 ifnet 结 构 ( 图 3-20)。 

1. le_softc 结 构 图 3-24 ”网 络 接口 初始 化 函数 
69-95 在 if_le.c 中 声明 了 一 个 Le_softc 结 构 ( 有 
NLE 成 员 ) 的 数组 。 每 个 结构 的 第 一 个 成 员 是 sc_ac， 一 个 arpcom 结 构 ， 它 对 于 所 有 以 太 网 
接口 都 是 通用 的 ， 接 下 来 是 设备 专用 成 员 。 宏 sc_if 和 sc_adar 简 化 了 对 结构 ifnet 及 存储 
在 结构 arpcom(sc_ac) 中 的 以 太 网 地 址 的 访问 ， 如 图 3-26 所 示 。 


LANCE 以 太 网 
SLIP 


Mel 





leattach 









Slattach 





loopattach 


if le.c 
69 struct le softc { 
70 struct arpcom sc, ac; /* common Ethernet structures */ 
71 #define sc if SC, ac.ac, if /* network-visible interface */ 
72 4$define sc addr sc ac.ac enaddr /* hardware Ethernet address */ 
95 ) le softc[NLE]; 
if. le.c 
图 3-25 结构 le_softc 
if ether.h 
95 struct arpcom ( 
96 struct ifnet ac if; /* network-visible interface */ 
97 u_char ac, enaddr[6]; /* ethernet hardware address */ 
98 struct in, addr ac ipadár; /* copy of ip address - XXX  */ 
99 struct ether,multi *ac multiaddrs;  /* list of ether multicast addrs */ 
100 int ac, multicnt; /* length of ac multiaddrs list */ 
101 ) 
if ether.h 


图 3-26 结构 arpcom 


2. arpcom£& 4j 
95-101 结构 arpcom 的 第 一 个 成 员 ac_if 是 一 个 ifnet 结 构 ， 如 图 3-20 所 示 。ac_enaddr 
是 以 太 网 硬件 地 址 ， 它 是 在 cpu_startup 期 间 内 核 检测 设备 时 由 LANCE 设 备 驱动 程序 从 硬 
件 上 复制 的 。 对 于 我 们 的 例子 驱动 程序 ， 这 发 生 在 函数 1eattach 中 (图 3-27)。ac_ipaddr 
是 上 一 个 分 配给 此 设备 的 下 地 址 。 我 们 在 6.6 节 讨论 地 址 的 分 配 ， 可 以 看 到 一 个 接口 可 以 有 多 
个 IP 地 址 。 见 习题 6.3。 ac_multiaddqrs 是 一 个 用 结构 ether_multi 表 示 的 以 太 网 多 播 地 
址 的 列表 。ac_multicnt 统 计 这 个 列表 的 项 数 。 多 播 列表 在 第 12 章 讨论 。 

图 3-27 所 示 的 是 LANCE 以 太 网 驱动 程序 的 初始 化 代码 。 
106-115 内 核 在 系统 中 每 发 现 一 个 LANCE 卡 都 调用 一 次 leattach。 


只 有 一 个 指向 一 个 hp_device 结 构 的 参数 ， 它 包含 了 HP 专用 信息 ， 因 为 它 是 专 
为 HP 工作 站 编写 的 驱动 程序 。 


le 指向 此 卡 的 专用 化 ifnet 结 构 (图 3-20)，i fp 指向 这 个 结构 的 第 一 个 成 员 sc_if， 一 个 
通用 的 ifnet 结 构 。 图 3-27 并 不 包括 设备 专用 初始 化 代码 ， 它 在 本 书 中 不 予 讨论 。 


Nai 
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if le.c 
106 leattach (hd) 
107 struct hp device *hd; 
108 { 
109 struct leregO *ler0; 
110 struct lereg2 *ler2; 
111 struct lereg2 *lemem - 0; 
112 struct le softc *le = &le softc[hd-»hp unit]; 
113 Struct ifnet *ifp - &le-»sc if; 
114 char *Cp; 
115 int 1; 
/* device-speci£ké 
126 /* 
127 * Read the ethernet address off the board, one nibble at a time. 
128 */ 
129 cp = (char *) (lestd[3] + (int) hd-»hp addr); 
130 for (i = 0; i < sizeof(le-»sc addr); i++) ( 
131 le-»-sc addr[i] = (*««cp & OxF) << 4; 
132 Cp++}; 
133 le->sc_addr[i] |= *««cp & OxF; 
134 Cp; 
135 } 
136 printf("le$d: hardware address %s\n", hd-»hp unit, 
137 ether sprintf(le-»sc addr)); 
/* device-specific i 

150 ifp-»if unit = hd-»hp unit; 
151 ifp-»if name = "le"; 
152 ifp-»if mtu = ETHERMTU; 
153 ifp-»if init = leinit; 
154 ifp-»if reset = lereset; 
155 ifp-»if ioctl = leioctl; 
156 ifp-»-if output = ether output; 
157 ifp-»if start = lestart; 
158 ifp-»if flags = IFF BROADCAST | IFF.SIMPLEX | IFF .MULTICAST; 
159 bpfattach(&ifp-»if bpf, ifp, DLT EN10MB, sizeof(struct ether, header)); 
160 if attach(ifp):; 
161 return (1); 
162 ) if le. 





图 3-27 函数 1eattach 
3. 从 设备 复制 硬件 地 址 


126-137 对 于 LANCE 设 备 ， 由 厂商 指派 的 以 太 网 地 址 在 这 个 循环 中 以 每 次 半 个 字 节 (4 bit) 


从 设备 复制 到 sc_adqdr( 即 sc_ac.ac_enaddr 一 一 匈 图 3-26)。 


lestd 是 一 个 设备 专用 的 位 移 表 ， 用 于 定位 hp_addr 的 相关 信息 ，hp_addr 指 


向 LANCE 专 用 信息 。 
通过 printf 语 句 将 完整 的 地 址 输出 到 控制 台 ， 来 指示 此 设备 存在 并 且 可 操作 。 
4. 初始 化 Lfnet 结 构 


150-157 leattach 从 hp_qdevice 结 构 把 设备 单元 号 复制 到 if_unit 来 标识 同类 型 的 多 
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个 接口 。 这 个 设备 的 1f_name 是 “le”; if_mtu 为 1500 字 节 (ETHERMTU)， 以 太 网 的 最 大 
传输 单元 ;if_init、if_reset、if_ioctl]、if_output 和 it_start 都 指向 控制 网 络 
接口 的 通用 函数 的 设备 专用 实现 。4.1 证 说 明 这 些 函 数 。 

158 ”所 有 的 以 太 网 设备 都 支持 IFF_BROADCAST。LANCE 设 备 不 接收 它 自己 发 送 的 数据 ， 
因此 被 设置 为 TFF_SIMPLEX。 支 持 多 播 的 设备 和 硬件 还 要 设置 IFF_MULTICAST。 
159-162 bpfattach 登 记 有 BPF 的 接口 ， 在 图 31-8 中 说 明 。 函数 if_attach 把 初始 化 了 
的 ifnet 结 构 插入 到 接口 的 链表 中 (3.11 市 )。 


3.9 ”SLIP 初始 化 


依赖 标准 异步 串 行 设备 的 SLIP 接 口 在 调用 cpu_startup 时 初始 化 。 当 main 直 接 通 过 
SLIP 的 pdevinit 结 构 中 的 指针 pdev_attach 调 用 slattach 时 ，SLIP 伪 设备 被 初始 化 。 
每 个 SLIP 接 口 由 图 3-28 中 的 一 个 s1_softc 结 构 来 描述 。 


if. slvar.h 
43 struct sl, softc ( 
44 struct ifnet sc if; /* network-visible interface */ 
45 struct ifqueue sc fastq; /* interactive output queue */ 
46 struct tty *sc ttyp; /* pointer to tty structure */ 
47 u_char *sc mp: /* pointer to next available buf char */ 
48 u char *sc ep; /* pointer to last available buf char */ 
49 u char *sc buf; /* input buffer */ 
50 u. int sc flags; /* Figure 3.29 */ 
51 u int sc escape; /* =1 if last char input was FRAME ESCAPE */ 
52 strüct slcompress sc comp; /* tcp compression data */ 
53 caddr t sc bpf; /* BPF data */ 
54 ); . 
if sloar.h 





图 3-28 结构 s1_softc 


43-54 与 所 有 接口 结构 一 样 ，s1_softc 有 一 个 ifnet 结 构 并 且 后 面 跟着 设备 专用 信息 。 

除了 在 ifnet 结 构 中 的 输出 队列 外 ， 一 个 SLIP 设 备 还 维护 另 一 个 队列 sc_fastq， 它 用 
于 要 求 低 时 延 服务 的 分 组 一 一 典型 地 由 交互 应 用 产生 。 

sc_ttyp 指 向 关联 的 终端 设备 。 指 针 sc_buf 和 sc_ep 分 别 指向 一 个 接收 SLIP 分 组 的 缓 
存 的 第 一 个 字 节 和 最 后 一 个 字 节 。sc_mp 指 向 下 一 个 接收 字 节 的 地 址 ， 并 在 另 一 个 字 节 到 达 
时 向 前 移动 。 

SLIP 定 义 的 4 个 标志 显示 在 图 3-29 中 。 


sc_if.if flags 





























IFF LINK0; 压缩 TCP 通 信 
IFF LINK1; 禁止 ICMP 通 信 
SC_AUTOCOMP sc_if.if_flags IFF_LINK2; 人 允许 TCP 自 动 压 缩 


图 3-29 SLIP 的 if_flags 和 sc_flags 值 

SLIP 在 ifnet 结 构 中 定义 了 3 个 接口 标志 预 留 给 设备 驱动 程序 ， 另 一 个 标志 定义 在 结构 
sl_softc 中 。 

sc_escape 用 于 捉 行 线 的 IP 封 装机 制 (5.3 节 )， 而 TCP 首 部 压缩 信息 (29.13 节 ) 保 留 在 


SC_COMPRESS 


SC_NOICMP sc if.if flags 
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sc_comp 中 。 

指针 sc_bpf 指 向 SLIP 设 备 的 BPF 信 息 。 

结构 sl._softc 由 slattach 初 始 化 ， 如 图 3-30 所 示 。 
135-152 不 像 1eattach 一 次 仅 初 始 化 一 个 接口 ， 内 核 只 调用 一 次 slattach， 并 且 
slattach 初 始 化 所 有 的 SLIP 接 口 。 硬 件 设备 在 内 核 执行 cpu_startup 被 发 现时 初始 化 ， 
而 伪 设 备 都 是 在 main 为 这 个 设备 调用 pdev_attach 函 数 时 被 初始 化 的 。 一 个 SLIP 设 备 的 
if_mtu 为 296 字 节 (SLMTU)。 这 包括 标准 的 20 字 节 IP 首 部 、 标 准 的 20 字 节 TCP 首 部 和 256 字 节 
的 用 户 数 据 (5.3 节 )。 


135 void if slc 
136 slattach() 

137 ( 

138 struct sl softc *sc; 

139 int i = 0; 

140 for (sc = sl softc; i < NSL; sc++) ( 

141 sc->sc_if.if_name = "sl"; 

142 sc->sc_if.if_next = NULL; 

143 sc->sc_if.if_unit = i++; 

144 sc->sc_if.if_mtu = SLMTU; 

145 sc->sc_if.if_flags = 

146 IFF_POINTOPOINT | SC_AUTOCOMP | IFF_MULTICAST; 

147 sc->sc_if.if_type = IFT_SLIP; 

148 Sc-»sc if.if ioctl = slioctl; 

149 Sc-»sc if.if output - sloutput; 

150 Sc-»sc if.if snd.ifq maxlen = 50; 

151 Sc-»sc fastq.ifq maxlen = 32; 

152 if attach(&sc-»sc if); 

153 bpfattach(&sc-»sc bpf, &sc-»sc if, DLT SLIP, SLIP HDRLEN); 
154 ) 

155 ) ifs Lc 


[13-30 函数 slattach 


一 个 SLIP 网 络 由 位 于 一 个 串 行 通信 线 两 端的 两 个 接口 组 成 。slattach 在 if_fiags 中 
设置 I[FF_POINTOPOINT、SC_AUTOCOMP 和 IFF_MULTICAST。 

SLIP 接 口 限制 它 的 输出 分 组 队列 if_snd 的 长 度 为 00， 并 且 它 自己 的 接口 队列 sc_fastq 
的 长 度 为 32。 图 3-42 显 示 if_snd 队 列 的 长 度 默认 为 50(i fqmax1len)， 因 此 ， 如 果 设 备 驱 动 
程序 选择 一 个 长 度 ， 这 里 的 初始 化 是 多 余 的 。 

以 太 网 设备 驱动 程序 不 显 式 地 设置 它 的 输出 队列 的 长 度 ， 它 依赖 于 ifinit (图 

3-42) 把 它 设置 为 系统 的 默认 值 。 

if_attach 需 要 一 个 指向 一 个 ifnet 结 构 的 指针 ， 因此 slattach 将 sc_if 的 地 址 传递 
给 if_attach，sc_if 是 一 个 第 一 个 成 员 为 结构 s1_softc 的 ifnet 结 构 。 

专用 程序 slattach 在 内 核 初始 化 后 运行 (从 初始 化 文件 /etc/netstart)， 并 通过 打开 
串 行 设备 和 执行 ioct1 命 令 (5.3 节 ) 添 加 SLIP 接 口 和 一 个 异步 串 行 设备 。 

153-155 对 于 每 个 SLIP 设 备 ，slattach 调 用 bpfattach 来 登记 有 BPF 的 接口 。 


3.10 环 回 初始 化 
最 后 显示 环 回 接口 的 初始 化 。 环 回 接口 把 输出 分 组 放 回 到 相应 的 输入 队列 中 。 接 口 没有 
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相关 联 的 硬件 设备 。 环 回 伪 设 备 在 main 通 过 环 回 接口 的 pdevinit 结 构 中 的 pdev_attach 
指针 直接 调用 loopattach 时 初始 化 。 图 3-31 所 示 的 是 函数 loopattach。 








41 void if-loop.c 
42 loopattach (n) 

43 int n; 

44 ( 

45 struct ifnet *ifp - &loif; 

46 ifp-»if name = "lo"; 

47 ifp-»if,mtu = LOMTU; 

48 ifp-»if flags = IFF LOOPBACK | IFF MULTICAST; 

49 ifp-»if ioctl = loioctl; 

50 ifp->if_output = looutput; 

51 ifp-»if type = IFT LOOP; 

52 ifp-»if hdrlen = 0; 

53 ifp-»if addrlen = 0; 

54 if attach(ifp); 

55 bpfattach(&ifp--if bpf, ifp, DLT NULL, sizeof(u int)); 

56 } if loop.c 


图 3-31 环 回 接口 初始 化 


41-56 环 回 if_mtu 被 设置 为 1336 字 节 (LOMTU)。 在 if_flags 中 设置 IFF_LOOPBACK 和 
IFF_MULTICRAST。 一 个 环 回 接口 没有 链 路 首部 和 硬件 地 址 ， 因 此 if_hdrlen 和 if addrlen 
被 设置 为 0。if_attach 完 成 iftnet 结 构 的 初始 化 并 且 Dbpfattach 登 记 有 BPF 的 环 回 接口 。 
环 回 MTU 至 少 有 1576(40 + 3x 512) 留 给 一 个 标准 的 TCP/IP 首 部 。 例 如 Solaris 2.3 
环 回 MTU 设 置 为 8232(40 + 8x1024)。 这 些 计 算 基 于 Internet 协 议 ; 而 其 他 协议 可 能 
有 大 于 40 字 节 的 默认 首部 。 


3.11 if attachgZi 


前 面 显示 的 三 个 接口 初始 化 函数 都 调用 if_attach 来 完成 接口 的 ifnet 结 构 的 初始 化 ， 
并 把 这 个 结构 插入 到 先前 配置 的 接口 的 列表 中 。 在 if_attach 中 ， 内 核 也 为 每 个 接 日 初始 化 
并 分 配 一 个 链 路 层 地 址 。 图 3-32 说 明了 由 if_attacph 构 造 的 数据 结构 。 
ifnet: le softc[0]: Si softc[O]: loif: 












ifnet() 


£ 


让 了 


sSockaddr dl() 
BOCckaddr dl() Sockaddr dlí() Sockaddr di() 


图 3-32 ifnet 列 表 
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在 图 3-32 中 ，if_attach 被 调用 了 三 次 : 以 一 个 le_softc 结 构 为 参数 从 1eattach 调 
用 ， 以 一 个 sl1_softc 结 构 为 参数 从 slattach 调 用 ， 以 一 个 通用 ifnet 结 构 为 参数 从 
loopattach 调 用 。 每 次 调用 时 ， 它 向 i fnet 列 表 中 添加 一 个 新 的 1fnet 结 构 ， 为 这 个 接口 
创建 一 个 链 路 层 ifadar 结 构 ( 包 含 两 个 sockadadr_d1 结 构 ， 图 3-33)， 并 且 初 始 化 
ifnet_addrs 数 组 中 的 一 项 。 


if. dl.h 
55 struct sockaddr dl ( 
56 u_char sdl len; /* Total length of sockaddr */ 
57 u_char sdl family; /* AF LINK */ 
58 u short sdl index; /* if !- 0, system given index for 
59 interface */ 
60 u_char Ssdl type; /* interface type (Figure 3.9) */ 
61 u_char sdl, nlen; /* interface name length, no trailing O0 
62 regd. */ 
63 u_char sdl, alen; /* link level address length */ 
64 u_char sdl slen; /* link layer selector length */ 
65 char sdl, data[12]:; /* minimum work area, can be larger; 
66 contains both if name and 11 address */ 
67 ) 
68 #define LLADDR(s) ((caddr.t)((s)-»sdl, data + (s)-»sdl nlen)) if dlh 


3-33 £hkEjsockaddr dl 


图 3-20 显 示 了 包含 在 le_softc[0] 和 s1_softcf0] 中 党 套 的 结构 。 


初始 化 以 后 ， 接 口 仅 配 置 链 路 层 地 址 。 例 如 ，IP 地 址 直到 后 面 讨论 的 1fconfig 程 序 才 
配置 (6.6 节 )。 

链 路 层 地 址 包含 接口 的 一 个 逻辑 地 址 和 一 个 硬件 地 址 (如 果 网 络 支 持 ， 例 如 1e0 的 一 个 48 
pit 以 太 网 地 址 )。 在 ARP 和 OSI 协 议 中 要 用 到 这 个 硬件 地 址 ， 而 一 个 sockaddr_41 中 的 逻辑 
地 址 包含 一 个 名 称 和 这 个 接口 在 内 核 中 的 索引 数值 ， 它 支持 用 于 在 接口 索引 和 关联 ifaddz 结 
构 (ifa_ifwichner， 图 6-32) 间 相互 转换 的 表 查 找 。 

结构 sockaddr_d1 显 示 在 图 3-33 中 。 

55-57 ”回忆 图 3-18，sd1l_len 指 明了 整个 地 址 的 长 度 ， 而 sdl_family 指 明了 地 址 族 类 ， 
在 此 例 中 为 AF_LINK。 

58 ”sdl_index 在 内 核 中 标识 接口 。 图 3-32 中 的 以 太 网 接口 会 有 一 个 为 1 的 索引 ，SLIP 接 口 
的 索引 为 2， 而 环 回 接口 的 索引 为 3。 全 局 整数 变量 if_index 包 含 的 是 内 核 最 近 分 配 的 一 个 
索引 值 。 

60 sdl_type 根 据 这 个 数据 链 路 地 址 的 ifnet 结 构 的 成 员 if_type 进 行 初始 化 。 

61-68 除了 一 个 数字 索引 ， 每 个 接口 有 一 个 由 结构 ifnet 的 成 员 if_name 和 if_unit 组 成 
的 文本 名 称 。 例 如 ， 第 一 个 SLIP 接 口 则 “sl10”， 而 第 二 个 叫 “sl1”。 文 本 名 称 存储 在 数组 
sdl_data 的 前 面 ， 并 且 sd1l_nlen 为 这 个 名 称 的 字 节 长 度 (在 我 们 的 SLIP 例 子 中 为 3)。 

数据 链 路 地 址 也 存储 在 这 个 结构 中 。 宏 LLADDR 将 一 个 指向 sockaddr_dq1 结 构 的 指针 转 
换 成 一 个 指向 这 个 文本 名 称 的 第 一 个 字 节 的 指针 。sdl_alen 是 硬件 地 址 的 长 度 。 对 于 一 个 
以 太 网 设备 ，48 bit 硬 件 地 址 位 于 结构 sockaddr_91 的 这 个 文本 名 称 的 前 面 。 图 3-38 所 示 的 
是 一 个 初始 化 了 的 sockaddr_31 结 构 。 
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Net/3 不 使 用 sdl_slen。 

if_attach 更 新 两 个 全 局 变量 。 第 一 个 是 1f_index， 它 存放 系统 中 的 最 后 一 个 接口 的 
索引 ; 第 二 个 是 ifnet_addrs， 它 指向 一 个 1faddr 指 针 的 数组 。 这 个 数组 的 每 项 都 指向 一 
个 接口 的 链 路 层 地 址 。 这 个 数组 提供 对 系统 中 每 个 接口 的 链 路 层 地 址 的 快速 访问 。 

函数 if_attach 较 长 ， 并 且 有 儿 个 奇怪 的 赋值 语句 。 从 图 3-34 开 始 ， 我 们 分 5 个 部 分 讨 
论 这 个 函数 。 
59-74 if_attach 有 一 个 参数 .ifp， 这 是 一 个 指向 ifnet 结 构 的 指针 ， 由 网 络 设备 驱动 
程序 初始 化 。Net/3 在 一 个 链表 中 维护 所 有 这 些 i fnet 结 构 ， 全 局 指针 ifnet 指 向 这 个 链表 的 
首部 。while 循 环 查 找 链表 的 尾部 ， 并 将 链表 尾部 的 空 指针 的 地 址 存储 到 P 中 。 在 循环 后 ， 新 
ifnet 结 构 被 接 到 这 个 1fnet 链 表 的 尾部 ，if_inadex 加 1， 并 且 将 新 索引 值 赋 给 i fp 


-»if index. 





59 void fic 
60 if attach(ifp) 

61 struct ifnet *ifp; 

62 ( 

63 unsigned socksize, ifasize; 

64 int namelen, unitlen, masklen, ether output(); 

65 char workbuf[12], *unitname; 

66 struct ifnet **p = &ifnet; /* head of interface list */ 

67 struct sockaddr dl *sdl; 

68 struct ifaddr *ifa; 

69 static int if indexlim = 8; /* size of ifnet addrs array */ 
70 extern void link rtrequest(); 

71 while (*p) /* find end of interface list */ 
72 p = &((*p)-»if next); 

73 *p = ifp; 

74 ifp->if_index = ++if_index; /* assign next index */ 

75 /* resize ifnet addrs array if necessary */ 

76 if (ifnet addrs == 0 || if index »- if indexlim) ( 

717 unsigned n = (if indexlim <<= 1) * sizeof(ifa); 

78 struct ifaddr **q - (struct ifaddr **) 

79 malloc(n, M IFADDR, M WAITOK); 

80 if (ifnet addrs) ( 

81 bcopy((caddr t) ifnet addrs, (caddr t) aq, n / 2); 

82 free((caddr t) ifnet addrs, M IFADDR); 

83 J 

84 ifnet addrs = q; 

85 ) ifc 





83-34 函数 if_arcach: 分 配 接口 索引 
1. 必要 时 调整 ifnet_addrs 数 组 的 大 小 
75-85 第 一 次 调用 if._attach 时 ， 数 组 ifnet_addrs 不 存在 ， 因此 要 分 配 16(16=8<<1) 项 
9 空间。 当 数 组 满 时 ， 一 个 两 倍 大 的 新 数组 被 分 配 ， 并 且 老 数组 中 的 项 被 复制 到 新 的 数组 中 。 
if_indexlim 是 if_attach 私 有 的 一 个 静态 变量 。if_indexlim 通 过 <<= 操 
作 符 来 更 新 。 
图 3-34 中 的 函数 nalloc 和 free 不 是 同名 的 标准 C 库 函数 。 内 核 版 的 第 二 个 参数 指明 一 个 
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类 型 ,内 核 中 可 选 的 诊断 代码 用 它 来 检测 程序 错误 。 如 果 mal11loc 的 第 三 个 参数 为 M_WAITOK， 
且 函 数 需 要 等 待 释放 的 可 用 内 存 ， 则 阻塞 调用 进程 。 如 果 第 三 个 参数 为 M_DONTWAIT， 则 当 
内 存 不 可 用 时 ， 函 数 不 阻 塞 并 返回 一 个 空 指针 。 

函数 1f_attach 的 下 一 部 分 显示 在 图 3-35 中 ， 它 为 接口 准备 一 个 文本 名 称 并 计算 链 路 层 
地 址 的 长 度 。 


86 /* create a Link Level name for this device */ fic 
87 unitname = sprint d((u int) ifp-»if unit, workbuf, sizeof (workbuf)); 

88 namelen = strlen(ifp-»if name); 

89 unitlen - strlen(unitname); 

90 /* compute size of sockaddr dl structure for this device */ 

91 $define offsetof(t, m) ((int)((caddr t)&((t *)0)-»m)) 

92 masklen = .offsetof(struct sockaddr dl, sdl data[0]) + 

93 unitlen + namelen; 

94 Socksize = masklen + ifp-»if addrlen; 

95 &define ROUNDUP(a) (1 + (((a) - 1) 1 (sizeof(long) - 1))) 

96 socksize = ROUNDUP(socksize); 

97 if (socksize < sizeof(*sdl)) 

98 socksize = sizeof(*sd1); 

99 ifasize = sizeof(*ifa) + 2 * socksize; ifc 


图 3-35 if_attach 国 数 : 计算 链 路 层 地 址 大 小 


2. 创建 链 路 层 名 称 并 计算 链 路 层 地 址 的 长 度 
86-99 if attach 用 if_unit 和 ift_name 组 装 接口 的 名 称 。 函 数 sprint_d 将 if_unit 
的 数值 转换 成 一 个 串 并 存储 到 workbuf 中 。masklen 是 sockaddr_d1 数 组 中 sdl1_data 前 
面 的 信息 所 占用 的 字 节 数 加 上 这 个 接口 的 文本 名 称 的 大 
小 (namelen + unitlen)。 函数 对 socksize 进 行 上 
舍 入 ，socksize 是 masklen 加 上 硬件 地 址 长 度 —ifaddrO 


(if_addrlen)， 上 舍 入 为 一 个 长 整 型 (ROUNDUP)。 如 


果 它 小 于 一 个 sockaddr_d1 结 构 的 长 度 ， 就 使 用 标准 


的 sockaddr_dl 结 构 。ifasize 是 一 个 ifaddr 结 构 
的 大 小 加 上 两 倍 的 socksize， 因 此 ， 它 能 容纳 结构 
Sockaddr. dl. 

在 函数 的 下 一 个 部 分 中 ，if_attach 分 配 结构 并 图 3-36 在 if_attach 中 分 配 的 

将 结构 连接 起 来 ， 如 图 3-36 所 示 。 链 路 层 地 址 和 掩 码 
图 3-36 中 ， 在 ifaaddr 结 构 与 两 个 sockaddar_d1 结 构 间 有 一 个 空隙 来 说 明 它 们 

分 配 在 一 个 连续 的 内 存 中 但 没有 定义 在 一 个 C 结 构 中 。 

像 图 3-36 所 示 的 组 织 还 出 现在 结构 in_ifaddr 中 ; 这 个 结构 的 通用 ifaddr 部 分 中 的 指针 
指向 在 这 个 结构 的 设备 专用 部 分 中 的 专用 化 sockaddr 结 构 ， 在 本 例 中 是 结构 sockaddr_dl。 
图 3-37 所 示 的 是 这 些 结构 的 初始 化 。 

3. 地 址 
100-116 ”如 果 有 足够 的 内 存 可 用 ，bzero 把 新 结构 清 零 ， 并 且 sG1 指 向 紧 接 着 ifnet 结 构 


的 第 一 个 sockaddr_41。 车 没有 可 用 内 存 ， 代 码 被 忽略 。 
sdl_len 被 设置 为 结构 sockaddr._qd1 的 长 度 ， 并 且 sdl_family 被 设置 为 AF_LINK。 
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用 if_name 和 unitname 组 成 的 文本 名 称 存 放 在 sdl_data 中 ， 而 它 的 长 度 存 放 在 
sdl_nlen 中 。 接 唱 的 索引 被 复制 到 sd1l_index 中 ， 而 接口 的 类 型 被 复制 到 sdl_type 中 。 
分 配 的 结构 被 插入 到 数组 i fnet_addrs 中 ， 并 通过 ifa_ifp 和 ifa_addr1ist 链 接 到 结 

构 ifnet。 萨 后 ， 结 构 sockaddr_qdl 用 i fa._addr 连 接 到 ifnet 结 构 。 以 太 网 接口 用 
arp_rtrequest 取 代 默 认 阴 数 1ijnk_rtrequest。 环 回 接口 装 入 阔 数 
loop_rtrequest。 我 们 在 第 19 章 和 第 21 音 讨论 ifa_rtrequest 和 arp_rtrequest。 
而 linkrtrequest 和 loop_rtrequest 留 给 读者 自己 去 研究 。 以 上 完成 了 第 一 个 
sockaddar_dl1 结 构 的 初始 化 。 





100 if (ifa = (struct ifaddr *) malloc(ifasize, M IFADDR, M WAITOK)) ( ifc 
101 bzero((caddr t) ifa, ifasize); 

102 /* First: initialize the sockaddr dl address */ 

103 sdl = (struct sockaddr dl *) (ifa + 1); 

104 sdl-»-sdl, len = socksize; 

105 sdl-»sdl, family = AF, LINK; 

106 bcopy(ifp-»-if name, sdl-»sdl data, namelen); 

107 bcopy(unitname, namelen + (caddr t) sdi-»sdl data, unitlen); 
108 sdl-»sdl. nlen = (namelen += unitlen); 

109 sdl-»sdl, index = ifp-»if index; 

110 sdl-»sdl, type = ifp-»if type; 

111 ifnet addrs[if index - 1] - ifa; 

112 ifa--ifa ifp = ifp; 

113 ifa-»ifa next = ifp-»if addrlist; 

114 ifa-»ifa rtrequest = link rtrequest; 

115 ifp-»if addrlist - ifa; 

116 ifa-»ifa, addr = (struct sockaddr *) sdl; 

117 /* Second: initialize the sockaddr dl mask */ 

118 sdl = (struct sockaddr dl *) (socksize + (caddr t) sd1); 

119 ifa-»ifa netmask = (struct sockaddr *) sdl; 

120 sdl-»sdl len = masklen; 

121 while (namelen !- 0) 

122 sdl-»sdl data[--namelen] = Oxff; 

123 J ifc 


图 3-37 Hif attach: 分 配 并 初始 化 链 路 层 地 址 


4. $ 
117-123 第 二 个 sockaddr_d1 结 构 是 一 个 比特 掩 码 ， 用 来 选择 出 现在 第 一 个 结构 中 的 广 
本 名 称 。ifa_netmask 从 结构 ifaddr 指 向 掩 码 结构 (在 这 里 是 选择 接口 文本 名 称 而 不 是 网 
络 掩 码 )。while 循 环 把 与 名 称 对 应 的 那些 字 节 的 每 个 比特 都 置 为 1。 

图 3-38 所 示 的 是 我 们 以 太 网 接口 例子 的 两 个 初始 化 了 的 sockaddr_ dl 结构 。 它 的 
if_name 为 “le”，if_unit 为 0，if_inqdex 为 1。 

图 3-38 中 所 示 的 是 ether._ifattach 对 这 个 结构 初始 化 后 的 地 址 (图 3-41)。 

图 3-39 所 示 的 是 第 一 个 接口 被 if_attach 连 接 后 的 结构 。 

在 if_attach 的 最 后 ， 以 太 网 设备 的 函数 ether_ifattach 被 调用 ， 如 图 3-40 所 示 。 
124-127 开始 不 调用 ether_ifattach (例如 : 从 leattach)， 是 因为 仑 它 要 把 以 太 网 硬件 
地 址 复制 到 if_attach 分 配 的 sockaddr_dl 中 。 


XXX 注 释 表 示 作 者 发 现在 此 处 插入 代码 比 修改 所 有 的 以 太 网 驱动 程序 要 容易 。 
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BOCkaddr d1() llenlar_-| index 以 太 网 地 址 
1 1 2 1 1 1 1 nlen alen 3 bytes 
nara IM (6 4) | 


SOCkaddr dl1() |len 全 
(ifa netmask) | 11 ff|ff]ff T 


masklen 
e—a —————e| 


图 3-38 初始 化 了 的 以 太 网 scckaddr_dl1 结 构 (省 略 了 前 缀 sql_) 





e 





ifnet: le softc() 
if next 


if addrlist | + 












ifnet addrs: 







if indexlim-1 


Sockaddr dl() 


图 3-39 第 一 次 调用 if_attach 后 的 ijfnet 和 sockaddr_di 结 构 





if.c 
124 /* XXX -- Temporary fix before changing 10 ethernet drivers */ if. 
125 if (ifp->if_output == ether output) 
126 ether ifattach(ifp); 
127 ) . 
if.c 
图 3-40 Hif attach: 以 太 网 初始 化 
if. ethersubr.c 





338 void 
339 ether, ifattach(ifp) 
340 struct ifnet *ifp; 


341 ( 

342 struct ifaddr *ifa; 

343 struct sockaddr dl *sdl; 

344 ifp-»if type = IFT ETHER; 

345 ifp-»if addrlen = 6; 

346 ifp-»if hdrlen = 14; 

347 ifp-»if, mtu = ETHERMTU; 

348 for (ifa = ifp-»if addrlist; ifa; ifa = ifa-»ifa next) 
349 if ((sdl = (struct sockaddr dl *) ifa-»ifa addr) && 


图 3-41 因数 ether_ifattach 
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350 sdl-»sdl family == AF LINK) ( 
351 sdl-»sdl type = IFT ETHER; 
352 sdl-»sdl alen = ifp-»if addrlen; 
353 bcopy((caddr t) ((struct arpcom *) ifp)-»ac enaddr, 
354 LLADDR (sdl), ifp-»if addrlen); 
355 break; 
356 ) 
357 ) 
if. ethersubr.c 
图 3-41 (2) 


5.ether ifattachu* 

函数 ether_ifattach 执 行 对 所 有 以 太 网 设备 通用 的 ifnet 结 构 的 初始 化 。 
338-357 ”对 于 一 个 以 太 网 设备 ，if_type 为 TFT_ETHER， 硬 件 地 址 为 6 字 节 长 ， 整 个 以 太 
网 首部 有 14 字 节 ， 而 以 太 网 MTU 为 1500 (ETHERMTU)。 

leattach 已 经 指派 了 MTU， 但 其 他 以 太 网 设备 驱动 程序 可 能 没有 执行 这 个 初始 化 。 

4.3 节 讨论 以 太 网 帧 组 织 的 更 多 细节 。for 循 环 定位 接口 的 链 路 层 地 址 ， 然 后 初始 化 结构 
sockaddr_dl 中 的 以 太 网 硬件 地 址 信息 。 在 系统 初始 化 时 ， 以 太 网 地 址 被 复制 到 结构 
arpcom 中 ， 现 在 被 复制 到 链 路 层 地 址 中 。 


3.12 ifinit 函 数 
接口 结构 被 初始 化 并 链接 到 一 起 后 ，main (图 3-23) 调 用 ifinit， 如 图 3-42 所 示 。 





43 void fc 
44 ifinit() 

45 ( 

46 struct ifnet *ifp; 

47 for (ifp = ifnet; ifp; ifp = ifp-»if next) 

48 if (ifp-»if snd.ifq maxlen zz 0) 

49 ifp-»if snd.ifq maxlen = ifqmaxlen; /* set default length */ 
50 if slowtimo(0); 


if.c 





图 3-42 mAÁiifinit 
43-51 for 循环 遍历 接口 列表 ， 并 把 没有 被 接口 的 attach 函 数 设置 的 每 个 接口 输出 队列 的 
最 大 长 度 设置 为 50 (ifqmaxlen)。 
输出 队列 的 大 小 关键 要 考虑 的 是 发 送 最 大 长 度数 据 报 的 分 组 的 个 数 。 例 如 以 太 

网 ， 著 一 个 进程 调用 sendto 发 送 65 507 字 节 的 数据 ， 它 被 分 片 为 45 个 数据 报 片 ， 并 

且 每 个 数据 报 片 被 放 进 接口 的 输出 队列 。 若 队列 非常 小 ， 由 于 队列 没有 空间 ,进程 

可 能 不 能 发 送 大 的 数据 报 。 

if_stowtimo 启 动 接口 的 监视 计时 器 。 当 一 个 接口 时 钟 到 期 ， 内 核 会 调用 这 个 接口 的 把 
关 定 时 器 函数 。 一 个 接口 可 以 提前 重 设 时 钟 来 阻止 把 关 定时 器 函数 的 调用 ， 或 者 ， 若 不 需要 
把 关 定 时 器 函数 ， 则 可 以 把 if_timer 设 置 为 0。 图 3-43 所 示 的 是 函数 if_slowtimo。 
338-343 if_slowtimo 函 数 有 一 个 参数 arg 没 有 使 用 ， 但 慢 超 时 函数 的 原型 (7.4 节 ) 要 求 有 
这 个 参数 。 
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338 void fic 
339 if slowtimo (arg) 

340 void *arg; 

341 ( 

342 struct ifnet *ifp; 

343 int s = splimp(); 

344 for (ifp = ifnet; ifp; ifp = ifp-»if next) ( 

345 if (ifp-»if timer == 0 || --ifp-»if.timer) 

346 continue; 

347 if (ifp-»if watchdog) 

348 (*ifp-2-if watchdog) (ifp-»if unit); 

349 ) 

350 splx(s); 

351 timeout(if slowtimo, (void *) 0, hz / IFNET SLOWHZ); 

352 ) ifc 


图 3-43 gpAif slowtimo 


344-352 if_slowtimo 忽 略 if_timer 为 0 的 接口 ; Hif timer 4T, 
if _slowtimo 把 if_timezr 减 1， 并 在 这 个 时 钟 到 达 0 时 调用 这 个 接口 关联 的 1f_watchdog 
函数 。 在 调用 if_slowtimo 时 ， 分 组 处 理 进 程 被 sp1imp 阻 塞 。 返 回 前 ，ip_slowtimo 调 
用 timeout， 来 以 hz/IFNET_SLOWHZz 时 钟 频 率 调度 对 它 自 己 的 调用 。hz 是 1 秒 钟 内 时 钟 滴 
答 数 (通常 是 100)。 它 在 系统 初始 化 时 设置 ， 并 保持 不 变 。 因 为 IFNET_SLOWH2Z 被 定义 为 1， 
因此 内 核 每 赫兹 调用 一 次 if_slowtimo， 即 每 秒 一 次 。 

函数 Eimeout 调 度 的 函数 被 内 核 的 函数 caLlLlout 回 调 。 详 见 [Leffler er al. 1989], 


3.13 小 结 


在 本 章 我 们 研究 了 结构 ifnet 和 ifaddqr， 它 们 被 分 配给 在 系统 初始 化 时 发 现 的 每 一 个 网 
络 接口 。 结 构 ifnet 链 接 成 1fnet 链 表 。 每 个 接口 的 链 路 层 地 址 被 初始 化 ， 并 被 加 到 ifnet 
结构 的 地 址 链表 中 ， 还 存放 到 数组 if_addrs 中 。 
我 们 讨论 了 通用 sockadqdr 结 构 及 其 成 员 sa_fami1ly 和 sa_1en， 它 们 标识 每 个 地 址 的 
类 型 和 长 度 。 我 们 还 查看 了 一 个 链 路 层 地 址 的 sockaddr_d1l 结 构 的 初始 化 。 
在 本 章 中 ， 我 们 还 介绍 了 在 全 书 中 要 用 到 的 三 个 网 络 接口 例子 。 
习题 
3.1 很 多 Unix 系 统 中 的 netstat 程 序列 出 网 络 接口 及 其 配置 信息 。 在 你 接触 的 系统 中 试 
一 下 命令 netstat -i。 那 个 网 络 接 口 的 名 称 (if_name) 是 什么 ”传输 单元 的 最 大 
长 度 (i f_mtu) 是 多 少 ? 
32 在 if_slowtimo (图 3-43) 中 ， 调 用 splimp 和 splx 出 现在 循环 的 外 面 。 与 把 这 些 
调用 放 到 循环 内 部 相 比 ， 这 样 安排 有 何 优 缺 点 ? 
3.3 为 什么 SLIP 的 交互 队列 比 它 的 标准 输出 队列 要 短 ? 
3.4 为 什么 if_hdrlen 和 if_addrlen 不 在 slattach 中 初始 化 ? 
3.5 为 SLIP 和 环 回 设备 画 一 个 与 图 3-38 类 似 的 图 。 


第 4 章 接口 : 以 太 网 


4.1 引言 


在 第 3 章 中 ， 我 们 讨论 了 所 有 接口 要 用 到 的 数据 结构 及 对 这 些 数据 结构 的 初始 化 。 在 本 章 
中 、 我 们 说 明 以 太 网 设备 驱动 程序 在 初始 化 后 是 如 何 接收 和 传输 帧 的 。 本 章 的 后 半 部 分 介绍 
配置 网 络 设备 的 通用 ioct1 命 令 。 第 5 章 是 SLIP 和 环 回 驱动 程序 。 
我 们 不 准备 查看 整个 以 太 网 驱动 程序 的 源 代码 ， 因 为 它 有 大 约 1 000 行 C 代 码 (其 中 有 一 半 
是 一 个 特定 接口 卡 的 硬件 细节 )， 但 要 研究 与 设备 无 关 的 以 太 网 代码 部 分 ， 及 驱动 程序 是 如 何 
与 内 核 其 他 部 分 交互 的 。 
如 果 读 者 对 一 个 驱动 程序 的 源 代 码 感 兴趣 ，NeV3 版 本 包括 很 多 不 同 接口 的 源 代 码 。 要 想 
研究 接口 的 技术 规范 、 就 要 求 能 理解 设备 专用 的 命令 。 图 4-1 所 示 的 是 Net/3 提 供 的 各 种 驱动 程 
序 ， 包 括 在 本 章 我 们 要 讨论 的 LANCE 驱 动 程序 。 
网 络 设备 驱动 程序 通过 i fnet 结 构 ( 图 3-6) 中 的 7 个 函数 指针 来 访问 。 图 4-2 列 出 了 指向 我 
们 的 三 个 例子 驱动 程序 的 入 口 点 。 
输入 函数 不 包含 在 图 4-2 中 ， 因 为 它们 是 网 络 设备 中 断 驱 动 的 。 中 断 服 务 例 程 的 配置 与 硬件 相 
关 ， 并 且 超 出 了 本 书 的 范围 。 我 们 要 识别 处 理 设备 中 断 的 函数 ， 但 不 是 这 些 函 数 被 调用 的 机 制 。 


DEC DEUNA 接 口 vax/if/if.de. 
3Com[A Kfz r1 vax/if/if 
Excelan EXOS 204 接 [1 vax/if/if_ex. 
Interlan 以 大 网 通信 控制 器 vax/if/if il. 
Interlan NP100 以 大 网 通信 控制 路 vax/if/if ix. 
Digital Q-BUS to NI 适配器 vax/if/if.qe.c 
CMC ENP-20 以 大 网 控制 器 tahoe/if/if enp.c 
Excelan EXOS 202 (VME) & 203 (QBUS) tahoe/if/if ex.c 
ACC VERSAbus 以 大 网 控制 器 tahoe/if/if ace.c 
AMD 7990 LANCE4Z !! hp300/dev/if 1le.c 
NE2000 以 大 网 i386/isa/if ne.c 
Western Digital 8003 以 大 网 适配器 i386/isa/if we.c 


图 4-1 Net/3 中 可 用 的 以 太 网 驱动 程序 


if, init | leinit | 


ec. 


























便 件 初始 化 












































if output ether output slouput looutput 接收 并 对 传输 的 帧 进行 排队 

if start lestart 开始 传输 帧 

if done 输出 完成 (未 用 ) 

if ioctl leioctl slioctl lcioctl 处 理 来 自 一 个 进程 的 ijoct1li 命 令 
if reset lereset 把 设备 复位 到 已 知 的 状态 


监视 设备 故障 或 收集 统计 信息 


if watchdog 


图 4-2 例子 驱动 程序 的 接口 函数 
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BAR Kif outputfáeif ioctlaAZ E3638], if init, if donefe 
if_reset 从 来 不 被 调用 或 仅 从 设备 专用 代码 调用 (例如 : leinit É dX leioctl 
调用 )。 了 有 函数 if_start 仅 被 函数 ether_output 调 用 。 


4.2 代码 介绍 


以 太 网 设备 驱动 程序 和 通用 接口 1oct1 的 代码 包含 在 两 个 头 文件 和 三 个 C 文 件 中 ， 它 们 列 
于 图 4-3 中 。 


net/if ether.h 以 大 网 结构 
net/if.h ioct1 命 令 定义 


net/if ethersubr.c 通用 以 大 网 函数 
hp300/dev/if le.c LANCE 以 大 网 驱动 程序 
net/if.c ioct1 处 理 


图 4-3 在 本 章 讨论 的 文件 





4.2.1 全 局 变量 
显示 在 图 4-4 中 的 全 局 变量 包括 协议 输入 队列 、LANCE 接 口 结构 和 以 太 网 广播 地 址 。 


arpintrq Struct ifqueue ARP 输 入 队列 
clnlintrqd struct ifqgueue CLNP 输 入 队列 


ipintrq struct ifqueue IP 输 入 队列 
le softc struct le softc[í] LANCE 以 大 网 接口 
etherbraodcastaddr | u charí] 以 大 网 广播 地 址 





图 4-4 本 章 介绍 的 全 局 变量 
Le_softc 是 一 个 数组 ， 因 为 这 里 可 以 有 多 个 以 太 网 接口 。 
4.2.2 统计 量 


结构 ifnet 中 为 每 个 接口 收集 的 统计 量 如 图 4-5 所 示 。 

图 4-6 显 示 了 netstat 命 令 的 一 些 输出 例子 ， 包 括 ifnet 结 构 中 的 一 些 统计 信息 。 

第 1 列 包含 显示 为 一 个 字符 串 的 1f_name 和 i funit。 若 接口 是 关闭 的 (不 设置 IFF_UP)， 
一 个 星 号 显示 在 这 个 名 字 的 旁边 。 在 图 4-6 中 ，s10、s12 和 s13 是 关闭 的 。 

第 2 列 显示 的 是 if_mtu。 在 表 头 “Network” 和 “RaAddress” 底 下 的 输出 依赖 于 地 址 的 
类 型 。 对 于 链 路 层 地 址 ， 显 示 了 结构 sockaqadqr_d1 的 sdal_data 的 内 容 。 对 于 IP 地 址 ， 显 
示 了 子 网 和 单 播 地 址 。 其 余 的 列 是 if_ipackets、if_ierrors、if_opackets、 
if_oerrors 和 if_collisions。 

。 在 输出 中 冲突 的 分 组 大 约 有 3% (942 798 / 23 234 729 = 3%)。 

。 这 个 机 器 的 SLIP 输 出 队列 从 未 满 过 ， 因 为 SLIP 接 口 的 输出 没有 差错 。 

。 在 传输 中 ，LANCE 硬 件 检 测 到 12 个 以 太 网 的 输出 差错 。 其 中 有 些 差错 可 能 被 视 为 冲突 。 
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if collisions 
























用 于 SNMP 
























在 CSMA 接 月 的 冲突 数 
接收 到 的 字 他 总 数 
接收 人 到 的 有 输入 差错 分 组 数 
接收 到 的 多 播 分 组 数 

在 接口 接收 到 的 分 组 数 

被 此 接口 丢失 的 输入 分 组 数 
上 一 次 改变 统计 的 时 间 
指定 为 不 支持 协议 的 分 组 数 
发 送 的 字 闻 总 数 

接 中 上 输出 的 差错 数 

发 送 的 多 播 分 给 数 
BIAIS SLE 
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输出 队列 中 的 分 组 数 


if ibytes 

if ierrors 

if imcasts 

if ipackets 
i£ iqdrops 

if lastchange 


if noproto 









if obytes 

if oerrors 

if omcasts 

if opackets 

if snd.ifq drops 





if snd.ifq len 





图 4-5 结构 ifnet 中 维护 的 统计 








netstat -i output 

















Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll 
leO 1500 «Link»8.0.9.13.d.33 28680519 814 29234729 12 942798 
le0 1500 128.32.33 128.32.33.5 28680519 814 29234729 12 942798 
sl0* 296 «Link» 54036 0 45402 0 0 
sl0* 296 128.32.33 128.32.33.5 54036 0 45402 0 0 
s11 296 «Link» 40397 0 33544 0 0 
sil 296 128.32.33 128.32.33.5 40397 0 33544 0 0 
sl2* 296 <Link> 0 0 0 0 0 
sl3* 296 «Link» 0 0 0 0 0 
1o0 1536 «Link» 493599 0 493599 0 Q 
lo0 1536 127 127.0.0.1 493599 0 493599 0 0 
图 4-6 接口 统计 的 样本 


“硬件 检测 出 814 个 以 太 网 的 输入 差错 ， 例 如 分 组 太 短 或 错误 的 检验 和 。 
4.2.3 SNMP 变量 


图 4-7 所 示 的 是 SNMP 接 口 表 (ifTable) 中 的 一 个 接 日 项 对 象 (ifEntry)， 它 包含 在 每 个 
接口 的 ifnet 结 构 中 。 

ISODE SNMP 代 理 从 if_type 获 得 1fSpeed, 并 为 fAdqminstatus 维 护 一 个 内 部 变量 。 
代理 的 i1fLastchange 基 于 结构 ifnet 中 的 1f_lastchange， 但 与 代理 的 启动 时 间 相 关 ， 
而 不 是 与 系统 的 启动 时 间 相 关 。 代 理 为 1fSpecific 返 回 一 个 空 变量 。 


接口 表 ， 索 引 =<iflndex> 
唯一 地 标识 接口 
接口 的 文本 名 称 
接口 的 类 型 (例如 以 大 网 、SLIP 等 等 ) 









ifIndex 
ifDescr 







ifTvpe 


图 4-7 接口 表 ifTable 的 变量 


SNMP% ti 


ifMtu 

ifSpeed 
ifPhysAddress 
ifAdminStatus 
ifOperStatus 
ifLastChange 
ifinOctets 
ifInUcastPkts 
iflInNUcastPkts 
ifInDiscards 
ifInErrors 
ifiInUnknownProtos 
ifOutOctets 
ifOutUcastPkts 
ifOutNUcastPkts 
ifOutDiscards 
ifOutErrors 
ifOutQLen 


ifSpecific 


4.3 以 太 网 接口 


Net3 以 太 网 设备 驱动 程序 都 遵循 同样 的 设计 。 对 于 大 多 数 Unix 设 备 驱动 程序 来 说 ， 
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EDDA. #5|=<ifIndex> 

ifnet 成 员 说 ”有 明 
if mtu 接口 的 MTU CET) 
(看 正文 ) 接口 的 正常 速率 (每 秒 比 特 ) 
ac_enaddr 媒体 地 址 (来 自 结 构 arpcom) 
(看 正文 ) 接口 的 期 望 状态 (IFF_UP 标 志 ) 
if_flags 接口 的 操作 状态 (IFF_UP 标 志 ) 
(看 正文 ) 上 一 次 统计 改变 时 间 
if_ibytes 输入 的 字 节 总 M 
if ipackets -if imcasts | 输入 的 单 播 分 组 数 


if imcasts 

if iqdrops 

if ierrors 

if, noproto 

if obytes 

if opackets-if omcasts 
if omcasts 

if snd.ifq drops 

if oerrors 

if snd.ifq len 


n/a 





图 4-7 (53) 


输入 的 广播 或 多 播 分 组 数 

因为 实现 的 限制 而 天 弃 的 分 组 数 
差错 的 分 组 数 
指定 为 未 知 协议 的 分 
输出 字 节 数 
输出 的 单 播 分 组 数 
输出 的 广播 或 多 播 分 组 数 

因为 实现 的 限制 而 丢失 的 输出 分 组 数 
内 为 差错 而 天 失 的 输出 分 组 数 

输出 队列 长 度 

媒体 专用 信息 的 SNMP 对 象 ID (未 实现 ) 


组 数 


都 是 


这 样 ， 因 为 写 一 个 新 接口 卡 的 驱动 程序 总 是 在 一 个 已 有 的 驱动 程序 的 基础 上 修改 而 来 的 。 在 
本 节 ， 我 们 简要 地 概述 一 下 以 太 网 的 标准 和 一 个 以 太 网 驱动 程序 的 设计 。 我 们 用 LANCE 驱 动 


程序 来 说 明 这 个 设计 。 


图 4-8 说 明了 一 个 下 分 组 的 以 太 网 封装 。 


we T wee el T] 


6r 46-1500-£ 35 4 字 节 








数据 











IT IP 分 组 
2 46~1500 4T 


图 4-8 一 个 IP 分 组 的 以 太 网 封装 


以 太 网 帧 包括 48 bit 的 目标 地 址 和 源 地 址 ， 接 下 来 是 一 个 16 bit 的 类 型 字段 ， 它 标识 这 个 帧 
所 携带 的 数据 的 格式 。 对 于 下 分 组 ， 类 型 是 0x0800(2048)。 帧 的 最 后 是 一 个 32 bit 的 CRC( 循 环 
宛 余 检 验 )， 它 用 来 检查 帧 中 的 差错 。 
我 们 所 讨论 的 最 初 的 以 太 网 组 帧 的 标准 在 1982 年 由 Digital 设 备 公 司 、Intel 公 司 及 施 
乐 公 司 发 布 ， 并 作为 今天 在 TCP/IP 网 络 中 最 常用 的 格式 。 另 一 个 可 选 的 格式 是 IEEE( 电 
气 电 子 工 程 师 协会 ) 规 定 的 802.2 和 802.3 标 准 。 更 多 的 IEEE 标 准 详 见 [Stallings 1987], 
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对 于 以 太 网 ，IP 分 组 的 封装 由 RFC 894[Hornig 1984] 规 定 ， 而 对 于 802.3 网 ， 却 由 
RFCIO42[Postelfe Reynolds 1988] 规 定 。 l 


我 们 用 48 bit 的 以 太 网 地 址 作为 硬件 地 址 。IP 地 址 到 硬件 地 址 之 间 的 转换 用 ARP 协 议 (RFC 
826 [Plummer 1982])， 这 个 协议 在 第 21 音 讨论。 而 硬件 地 址 到 IP 地 址 的 转换 用 RARP 协 议 (RFC 
903 [Finlayson et al. 1984])。 以 太 网 地 址 有 两 种 类 型 ， 单 播 和 多 播 。 一 个 单 播 地 址 描述 一 个 音 
一 的 以 太 网 接口 ， 而 一 个 多 播 地 址 描述 一 组 以 太 网 接口 。 一 个 以 大 网 广播 是 一 个 所 有 接口 都 
接收 的 多 播 。 以 太 网 单 播 地 址 由 设备 的 厂商 分 配 ， 也 有 一 些 设备 的 地 址 允许 用 软件 改变 。 


一 些 DECNET 协 议 要 求 标 识 一 个 多 接口 主机 的 硬件 地 址 ， 因 此 DECNET 必 须 能 
改变 一 个 设备 的 以 太 网 单 播 地 址 。 


图 4-9 列 举 了 以 太 网 接口 的 数据 结构 和 国 数 。 
。| i£.output 


CE CE 


a JH 


le softc[0]: 


Csther input) mm Lrma jH 


C testart D 


输入 分 组 输出 分 组 


图 4-9 以 太 网 设备 驱动 程序 


在 图 中 : 用 一 个 椭圆 标识 一 个 函数 (leintr)、 用 一 个 方 框 标识 数据 结构 

(le softc[0]). le softcJAE JH B f Zi 4E 453 — AR E ARP BA AL), 

图 4-9 左 上 角 显 示 的 是 OSI 无 连接 网 络 层 (cln1) 协 议 、IP 和 ARP 的 输入 队列 。 对 于 
clnlintrq， 我 们 不 打算 讲 更 多 ， 将 它 包含 进来 是 为 了 强调 ether_input 要 将 以 太 网 帧 分 
用 到 多 个 协议 队列 中 。 

在 技术 上 ，OSI 使 用 无 连接 网 络 协议 (CLNP 而 不 是 CLNL)， 但 我 们 使 用 的 是 Net/3 

中 的 术语 。CLNP 的 官方 标准 是 ISO 8473。[Stallings 1993] 对 这 个 标准 作 了 概述 。 
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接口 结构 le_softc 在 图 4-9 的 中 间 。 我 们 感 兴趣 的 是 这 个 结构 中 的 i fnet 和 arpcom,， 
其 他 是 LANCE 硬 件 的 专用 部 分 。 我 们 在 图 3-6 中 显示 了 结构 ifnet， 在 图 3-26 中 显示 了 结构 


arpcom. 
4.3.1 leintri A 


我 们 从 以 太 网 帧 的 接收 开始 。 现 在 ， 假 设 硬件 已 初始 化 并 且 系 统 已 完成 配置 ， 当 接口 产生 
一 个 中 断 时 ，leintr 被 调用 。 在 正常 操作 中 ， 一 个 以 太 网 接口 接收 发 送 到 它 的 单 播 地 址 和 以 
太 网 广播 地 址 的 帧 。 当 一 个 完整 的 帧 可 用 时 ， 接 口 就 产生 一 个 中 断 ， 并 且 内 核 调用 leintr。 


.在 第 12 阐 中 ， 我 们 会 看 见 可 能 要 配置 多 个 以 太 网 接口 来 接收 以 太 网 多 播 帧 (不 同 
于 广播 )。 

有 些 接口 可 以 配置 为 运行 在 混杂 方式 。 在 这 种 方式 下 ， 接 口 接收 所 有 出 现在 网 
络 上 的 帧 。 在 卷 1 中 讨论 的 cpdump 程 序 可 以 使 用 BPF (BSD 分 组 过 滤 程 序 ) 来 利用 这 
种 特性 。 


leintr 检 测 硬 件 ， 并 且 如 果 有 一 个 帧 到 达 ， 就 调用 leread 把 这 个 帧 从 接口 转移 到 一 个 
mbuf 链 中 (用 m_devget)。 如 果 硬 件 报告 一 个 帧 已 传输 完 或 发 现 一 个 差错 (如 一 个 有 错误 的 检 
验 和 )， 则 1leintr 更 新 相应 的 接口 统计 ， 复 位 这 个 硬件 ， 并 调用 lestart 来 传输 另 一 个 帧 。 

所 有 以 太 网 设备 驱动 程序 将 它们 接收 到 的 帧 传 给 ether_input 做 进一步 的 处 理 。 设 备 驱 
动 程序 构造 的 nbuf 链 不 包括 以 太 网 首部 ， 以 太 网 首部 作为 一 个 独立 的 参数 传递 给 
ether_input。 结 构 ether_header 显 示 在 图 4-10 中 。 

38-42 以 太 网 CRC 并 不 总 是 可 用 。 它 由 接口 硬件 来 计算 与 检验 ， 接 口 硬件 丢弃 到 达 的 CRC 
差错 帧 。 以 太 网 设备 驱动 程序 负责 ether_type 的 网 络 和 主机 字 节 序 间 的 转换 。 在 驱动 程序 
外 ， 它 总 是 主机 字 节 序 。 


if ether.h 
38 struct ether, header ( 
39 u char ether dhost[6]; /* Ethernet destination address */ 
40 u_char ether. shost[6]; /* Ethernet source address */ 
41 u short ether type; /* Ethernet frame type */ 
42 }; ' - 
if ether.h 


图 4-10 结构 ether_header 


4.3.2 leread 函 数 


函数 leread( 图 4-11) 的 开始 是 由 leintr 传 给 它 的 一 个 连续 的 内 存 缓冲 区 ， 并 且 构 造 了 
一 个 ether_header 结 构 和 一 个 mbuf 链 。 这 个 链表 存储 来 自 以 太 网 帧 的 数据 。leread 还 将 
输入 帧 传 给 BPF。 


- if le.c 
528 leread(unit, buf, len) 
529 int unit; 
530 char *buf; 
531 int len; 
532 ( 
533 struct le softc *le - &le softc[unit]; 


图 4-11 国 数 1eread 
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534 struct ether header *et; 
535 struct mbuf *m; 
536 int off, resid, flags; 
537 le-»sc if.if ipackets-**; 
538 et - (struct ether header *) buf; 
539 et-»ether type = ntohs((u short) et-»ether type); 
540 /* adjust input length to account for header and CRC */ 
541 len - len - sizeof(struct ether header) - 4; 
542 off = 0; 
543 if (len «- 0) ( 
544 if (ledebug) 
545 log(LOG WARNING, 
546 "le$d: ierror(runt packet): from $&s: len-$dWMn", 
547 unit, ether, sprintf(et-»-ether shost), len); 
548 le-»sc runt**; ' 
549 le-»sc if.if ierrors**; 
550 return; 
551 } 
552 flags - 0; 
553 if (bcmp((caddr t) etherbroadcastaddr, 
554 (caddr t) et-»ether dhost, sizeof(etherbroadcastaddr)) == 0) 
555 flags |= M BCAST; 
556 if (et-»ether dhost[0] & 1) 
557 flags |- M MCAST; 
558 /* 
559 * Check if there's a bpf filter listening on this interface. 
560 * If so, hand off the raw packet to enet. 
561 */ 
562 if (1e-»sc if.if bpf) ( 
563 bpf tap(le-»sc if.if bpf, buf, len + sizeof(struct ether header)); 
564 /* 
565 * Keep the packet if it's a broadcast or has our 
566 * physical ethernet address (or if we support 
567 * multicast and it's one). 
568 */ 
569 if ((flags & (M BCAST | M MCAST)) -- 0 && 
570 bcmp (et->ether_dhost, le-»sc addr, 
571 sizeof (et->ether dhost)) !z 0) 
572 return; 
573 ) 
574 /* 
575 * Pull packet off interface. Off is nonzero if packet 
576 * has trailing header; m devget will then force this header 
577 * information to be at the front, but we still have to drop 
578 * the type and length which are at the front of any trailer data. 
579 */ 
580 m = m devget((char *) (et + 1), len, off, &le-»sc if, 0); 
581 if (m == 0) 
582 return; 
583 m-»m flags |= flags; 
584 ether input(&le-»sc if, et, m); 
585 ] 
if le.c 
图 4-11 ( 续 ) 
528-539 图 数 1eintr 给 1ereadQ 传 了 三 个 参数 : unit， 它 标识 接收 到 此 帧 的 特定 接口 
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F; buf， 它 指向 接收 到 的 帧 ， 1en， 它 是 帧 的 字 节 数 (包括 首部 和 CRC)。 
国 数 将 et 指向 这 个 缓存 的 开始 ， 并 且 将 以 太 网 字 节 序 转换 成 主机 字 节 序 ， 来 构造 结构 
ether header, 
540-551 将 len 减 去 以 太 网 首部 和 CRC 的 大 小 得 到 数据 的 字 节 数 。 短 分 组 (runt packet) i: — 
个 长 度 太 短 的 非法 以 太 网 帧 ， 它 被 记录 、 统 计 ， 并 被 丢弃 。 
552-557 接 下 来 ， 目标 地 址 被 检测 ， 并 判断 是 不 是 以 太 网 广播 或 多 播 地 址 。 以 太 网 广播 地 
址 是 一 个 以 太 网 多 播 地 址 的 特例 ; 它 的 每 一 比特 都 被 设置 了 。etherbroadcastaddr 是 一 
个 数组 ， 定 义 如 下 : 
u char etherbroadcastaddr[6] = ( Oxff, Oxff, Oxff, Oxff, Oxff, Oxff }; 
这 是 C 语 言 中 定义 一 个 48 bit 值 的 简便 方法 。 这 项 技术 仅 在 我 们 假设 字符 是 8 bit 
值 时 才 起 作用 ANSIC 并 不 保证 这 一 点 。 
bcmp 比 较 etherbroadcastaddr 和 ether_dhost， 若 相同 ， 则 设置 标志 M_BCAST。 
一 个 以 太 网 多 播 地 址 由 这 个 地 址 的 首 字 节 的 低位 比特 来 标识 ， 如 图 4-12 所 示 。 
0 78 15 16 23 24 3132 39 40 47 
ether Ghost [了 可， 
48 bit 以 大 网 地 址 





标识 以 太 网 多 播 地 址 
图 4-12 检测 一 个 以 太 网 多 播 地 址 


在 第 12 章 中 ， 我 们 会 看 到 并 不 是 所 有 以 太 网 多 播 帧 都 是 IP 多 播 数据 报 ， 并 且 卫 必须 进 一 
步 检 而 这 个 分 组 。 

如 果 这 个 地 址 的 多 播 比 特 被 置 位 ， 在 mbuf 首 部 中 设置 MY_MCAST。 检 测 的 顺序 是 重要 的 : 
首先 ether_input 将 整个 48 bit 地 址 和 以 太 网 广播 地 址 比较 ， 若 不 同 ， 则 检测 标识 以 太 网 多 
播 地 址 的 首 字 节 的 低位 比特 (习题 4.1)。 

558-573 ”如 果 接 口 带 有 BPF， 调 用 bpf_tap 把 这 个 帧 直接 传 给 BPF。 我 们 会 看 见 对 于 SLIP 
和 环 回 接口 ， 要 构造 一 个 特定 的 BPF 帧 ， 因 为 这 些 网 络 没有 一 个 链 路 层 首部 (不 像 以 太 网 )。 

当 一 个 接口 带 有 BPF 时 ， 它 可 以 配置 为 运行 在 混 消 模式， 并且 接收 网 络 上 出 现 的 所 有 以 太 

网 帧 ， 而 不 是 通常 由 硬件 接收 的 帧 的 子 集 。 如 果 分 组 发 送 给 一 个 不 与 此 接口 地 址 匹配 的 单 播 
地 址 ， 则 被 leread 于 弃 。 
574-585 m devget (2.6 节 ) 将 数据 从 传 给 1eread 的 缓存 中 复制 到 一 个 它 分 配 的 mbuf 链 中 。 
传 给 m_devget 的 第 一 个 参数 指向 以 太 网 首部 后 的 第 一 个 字 节 ， 它 是 此 帧 中 的 第 一 个 数据 字 
节 。 如 果 m_devget 内 存 用 完 ，leread 立 即 返 回 。 另 外 广播 和 多 播 标 志 被 设置 在 链表 中 的 第 
一 个 mbuf 中 ，ether_input 处 理 这 个 分 组 。 


4.3.8 ether inputiA4 


函数 ether_input 显 示 在 图 4-13 中 ， 它 检查 结构 ether_header 来 判断 接收 到 的 数据 
的 类 型 ， 并 将 接收 到 的 分 组 加 入 到 队列 中 等 待 处 理 。 

1. 广播 和 多 播 的 识别 
196-209 ” 传 给 ether_input 的 参数 有 : ifp， 一 个 指向 接收 此 分 组 的 接口 的 1 fnet 结 构 
的 指针 ; eh， 一 个 指向 接收 分 组 的 以 太 网 首部 的 指针 ; m， 一 个 指向 接收 分 组 的 指针 (不 包括 
以 太 网 首部 )。 
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任何 到 达 不 工作 接口 的 分 组 将 被 丢弃 。 可 能 没有 为 接口 配置 一 个 协议 地 址 ， 或 者 接口 可 
能 被 程序 ifconfig (8) (6.6 节 ) 显 式 地 禁用 了 。 





196 void 

197 ether_input (ifp, eh, m) 
198 struct ifnet *ifp; 

199 struct ether header *eh; 
200 struct mbuf *m; 


201 { 
202 
203 
204 
205 


206 
207 
208 
209 
210 


211 
212 
213 
214 
215 
216 
217 
218 


219 
220 
221 
222 
223 


224 
225 
226 
227 


228 
229 
230 
231 
232 


307 


308 
309 
310 
311 
312 
313 
314 
315 ) 





struct ifqueue *inq;. 
struct llc *1; 


struct arpcom *ac = (struct arpcom *) ifp; 
int 8; 
if ((ifp-»if flags & IFF UP) == O) ( 

m freem (m); 

return; 


J 
ifp-»if lastchange = time; 
ifp-»if ibytes += m-»m pkthdr.len + sizecf(*eh); 
if (bcmp((caddr t) etherbroadcastaddr, (caddr t) 
sizeof(etherbroadcastaddr)) -- 0) 
m-»m flags |- M BCAST; 
else if (eh-»ether dhost[0] & 1) 
m-»m flags |- M MCAST; 
if (m-»m flags & (M BCAST | M MCAST)) 
ifp-»if  imcasts**; 


switch (eh-»ether type) ( 
case ETHERTYPE IP: 
Schednetisr(NETISR IP); 
inq = &ipintrq; 
break; 


case ETHERTYPE ARP: 
 schednetisr(NETISR ARP); 
inq = &arpintrq: 
break; 


default: 
if (eh-»ether type » ETHERMTU) ( 
m freem(m); 
return;. 


/* OSI code */ 


) 


s = splimp(); 
if (IF. QFULL(inq)) ( 
IF. DROP (inq); 
m freem(m); 
) else 
IF. ENQUEUE (inq, m); 
splx(s}; 


图 4-13 函数 ether_input 


if. ethersubr.c 


eh-»ether dhost, 


if ethersubr.c 
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210-218 ”变量 time 是 一 个 全 局 的 timeval 结 构 ， 内 核 用 它 维护 当前 时 间 和 日 期 ， 它 是 从 

Unix 新 纪元 (1970 年 1 月 1 日 00:00:00， 协 调 通用 时 间 [UTC]) 开 始 的 秒 和 微 秒 数 。 在 [Itano and 

Ramsey 1993] 中 可 以 找到 对 UTC 的 简要 讨论 。 我 们 在 Net/3 源 代码 中 会 经 常 遇 到 结构 timeval: 
struct timeval { ! 


long tv sec; /* seconds */ 


long tv usec; /* and microseconds */ 


l; 


ether_input 用 当前 时 间 更 新 if_lastchange， 并 且 把 if_ipytes 加 上 输入 分 组 的 
长 度 (分 组 长 度 加 上 14 字 节 的 以 太 网 首部 )。 
然后 ，ether_input 再 次 用 leread 去 判断 分 组 是 否 为 一 个 广播 或 多 播 分 组 。 
有 些 内 核 编译 时 可 能 没有 包括 BPF 人 代码 ， 因 此 测试 必须 在 ether_input 中 进 
行 。 
2. 链 路 层 分 用 
219-227 ether_input 根 据 以 太 网 类 型 字段 来 跳 转 。 对 于 一 个 了 PP 分组，schednetisz 
调度 一 个 IP 软 件 中 断 ， 并 选择 IP 输 入 队列 ，ipintrq。 对 于 一 个 ARP 分 组 ， 调 度 ARP 软 件 中 
断 ， 并 选择 arpintrq。 
一 个 1sr 是 一 个 中 断 服务 例 程 。 
在 原先 的 BSD 版 本 中 ， 当 处 于 网 络 中 断 级 别 时 ，ARP 分 组 通过 调用 arpinput 立 
即 被 处 理 。 通 过 分 组 排队 ， 它 们 可 以 在 软件 中 断 级 别 被 处 理 。 
如 果 要 处 理 其 他 以 太 网 类 型 ,一 个 内 核 程序 员 应 在 此 增加 其 他 情况 的 处 理 。 或 
者 ， 一 个 进程 能 用 BPF 接 收 其 他 以 太 网 类 型 。 例 如 ， 在 Net/3 中 ，RARP 服 务 通 常用 
BPF 实 现 。 


228-307 ”默认 情况 处 理 不 识别 以 太 网 类 型 或 按 802.3 
标准 (例如 OSI 无 连接 传输 ) 封 装 的 分 组 。 以 太 网 的 type 





0~1500 IEEE 802.3 length Z Et 
字段 和 802.3 的 length 字 段 在 一 个 以 太 网 帧 中 占用 同一 | 1501-65535 | 以 太 网 ype 宁 段 : 
位 置 。 两 种 封装 能 够 分 辨 出 来 ， 因 为 一 个 以 太 网 封装 | 2048 IP 分 组 
的 类 型 范围 和 802.3 封 装 的 长 度 范围 是 不 同 的 (图 4-14)。 2955 ARP 分 组 
我 们 跳 过 OSI 代码 ， 在 [Stallings 1993] 中 有 对 OSI 链 路 图 4-14 以 太 网 的 pype 字 段 和 
层 协 议 的 说 明 。 802.3 的 length 字 段 


有 很 多 其 他 以 太 网 类 型 值 分 配给 各 种 协议 ; 我 们 没有 在 图 4-14 中 显示 。 在 RFC 
1700 [Reynolds and Postel 1994] 中 有 一 个 有 更 多 通用 类 型 的 列表 。 


3. 分 组 排队 
308-315 ”最 后 ，ether_input 把 分 组 放置 到 选择 的 队列 中 ， 若 队列 为 空 ， 则 丢弃 此 分 组 。 
我 们 在 图 7-23 和 图 21-16 中 会 看 到 IP 和 ARP 队 列 的 默认 限制 为 每 个 50 个 (ipqmaxlen) 分 组 。 

当 ether_input 返 回 时 ， 设 备 驱动 程序 通知 硬件 它 已 准备 接收 下 一 分 组 ， 这 时 下 一 分 组 
可 能 已 存在 于 设备 中 。 当 schednetisr 调 度 的 软件 中 断 发 生 时 ， 处 理 分 组 输入 队列 (1.12 他 )。 
准确 地 说 ， 调 用 ipintr 来 处 理 IP 输 入 队列 中 的 分 组 ， 调 用 arpintr 来 处 理 ARP 输 入 队列 中 
的 分 组 。 
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4.3.4 ether outputiEWE 


我 们 现在 查看 以 太 网 帧 的 输出 ， 当 一 个 网 络 层 协议 ， 如 IP， 调 用 此 接口 ifnet 结 构 中 指定 
的 函数 if_output 了 时 ， 开 始 处 理 输 出 。 所 有 以 太 网 设备 的 1f_output 是 ether._output 
(图 4-2)。ether_output 用 14 字 节 以 太 网 首部 封装 一 个 以 太 网 帧 的 数据 部 分 ， 并 将 它 放置 到 
接口 的 发 送 队 列 中 。 这 个 函数 比较 大 ， 我 们 分 4 个 部 分 来 说 明 : 





*， 验证; 

* 特定 协议 处 理 ; 

“ aiii 

， 接 口 排队 。 

图 4-15 包 括 这 个 国 数 的 第 一 个 部 分 。 

- if. ethersubr.c 

49 int 

50 ether output(ifp, m0, dst, rto) 

51 struct ifnet *ifp; 

52 struct mbuf *m0; 

53 struct sockaddr *dst; 

54 struct rtentry *rt0; 

55 ( 

56 short type; 

57 int s, error - 0; 

58 u_char edst[6]; 

59 struct mbuf *m = m0; 

60 struct rtentry *rt; 

61 struct mbuf *mcopy = (struct mbuf *) 0; 

62 struct ether header *eh; 

63 int off, len = m-»m pkthdr.len; 

64 struct arpcom *ac - (struct arpcom *) ifp; 

65 if ((ifp-»if flags & (IFF UP | IFF RUNNING)) != (IFF UP | IFF RUNNING)) 
66 . senderr (ENETDOWN) ; 

67 ifp-»if lastchange = time; 

68 if (rt = rt0) ( 

69 if ((rt-»rt flags & RTF UP) == 0) ( 

70 if (rt0 = rt = rtallocl(dst, 1)) 

71 rt-»rt refcnt--; 

72 else 

73 senderr (EHOSTUNREACH) ; 

74 ) 

75 if (rt-»rt flags & RTF,GATEWAY) ( 

76 if (rt-»rt gwroute == 0) 

77 goto lookup; 

78 if (((rt = rt-»rt, gwroute)-»rt flags & RTF UP) == 0) ( 
79 rtfree(rt); 

80 rt = rt0; 

81 lookup: rt-»rt gwroute = rtallocl(rt-»rt gateway, 1); 
82 if ((rt = rt-»rt gwroute) == 0) 

83 senderr (EHOSTUNREACH) ; 

84 ) 

85 ) 

86 if (rt-»rt flags & RTF REJECT) 

87 if (rt-»rt rmx.rmx expire -- 0 || 

88 time.tv sec « rt-»rt rmx.rmx expire) 

89 senderr (rt == rt0 ? EHOSTDOWN : EHOSTUNREACH); 
了 DLL thersubr.c 


图 4-15 函数 ether_output: 验证 
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49-64 ether_output 的 参数 有 : ifp， 它 指向 输出 接口 的 1fnet 结 构 ; m0， 要 发 送 的 分 
组 ; dst， 分 组 的 目标 地 址 ; rt0， 路 由 信息 。 
65~67 在 ether_output 中 多 次 调用 宏 senderr。 


#define senderrí(e) { error = (e); goto bad;} 
senderr 保 存 差 错 码 ， 并 跳 到 函数 的 尾部 bad， 在 那里 分 组 被 丢弃 ， 并 且 ether_ 
outputjk [Blerror, 


And O ADEE T, ether output S JE EE DLBS EE BRIRERRIS E, 3 mal 
ENETDOWN, 

1. 主机 路 由 
68-74 rt0 指 向 ip_output 找 到 的 路 由 项 ， 并 传递 给 ether_output。 如 果 从 BPF 调 用 
ether output, rtOmnf[AJgz: ， 在 这 种 情况 下 ， 控制 转 给 图 4-16 中 的 代码 。 否 则 ， 验 证 路 
由 。 如 果 路 由 无 效 ， 参 考 路 由 表 ， 并 且 当 路 由 不 能 被 找到 时 ， 返 回 EHOSTUNREACH。 这 时 ， 
rt0 和 rt 指向 一 个 到 下 一 跳 目的 地 的 有 效 路 由 。 








- - if_ethersubr.c 

91 switch (dst-»sa family) ( 

92 case AF INET: 

93 if (l!arpresolve(ac, rt, m, dst, edst)) 

94 return (0); /* if not yet resolved */ 

95 /* If broadcasting on a simplex interface, loopback a copy */ 
96 if ((m-»m flags & M BCAST) && (ifp-»if flags & IFF SIMPLEX)) 

97 mcopy = m copy(m, 0, (int) M COPYALLD); 

98 off = m-»m pkthdr.len - m-»m len; 

99 type - ETHERTYPE IP; 
100 break; 
101 case AF ISO: 
142 case AF UNSPEC: 
143 eh - (struct ether header *) dst-»sa data; 
144 bcopy((caddr t) eh-»ether dhost, (caddr t) edst, sizeof(edst)); 
145 type = eh-»etbher type; 
146 break; 
147 default: 
148 printf('$s$d: can't handle af%d\n", ifp-»if, name, ifp-»if unit, 
149 dst-»sa family); 

150 senderr (EAFNOSUPPORT); 
151 } 


if. ethersubr.c 





图 4-16 函数 ether_output: 网 络 协 议 处 理 


2. 网 关 路 由 
75-85 如果 分 组 的 下 一 跳 是 一 个 网 关 ( 而 不 是 最 终 上 的 )， 找 到 一 个 到 此 网 关 的 路 由 ， 并 且 
rt 指向 它 。 如 果 不 能 发 现 一 个 网 关 路 由 ， 则 返回 EHOSTUNREACH。 这 时 ，rt 指 向 下 一 跳 目 
的 地 的 路 由 。 下 一 跳 可 能 是 一 个 网 关 或 最 终 目 标 地 址 。 

3. 避免 ARP 泛 洪 
86-90 ” 当 目 标 方 不 准备 响应 ARP 请 求 时 ， ARP 代 码 设 置 标志 RTF_REJECT 来 丢弃 到 达 目 标 
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方 的 分 组 。 这 在 图 21-24 中 描述 。 

ether_output 根 据 此 分 组 的 目标 地 址 继续 处 理 。 因 为 以 太 网 设备 仅 响 应 以 太 网 地 址 ， 
要 发 送 一 个 分 组 ，ether_output 必 须发 现下 一 跳 目 的 地 的 IP 地 址 所 对 应 的 以 太 网 地 址 。 
ARP 协 议 ( 第 21 章 ) 用 来 实现 这 个 转换 。 图 4-16 显 示 了 驱动 程序 是 如 何 访问 ARP 协 议 的 。 

4. IP 输 出 
91-101 ether_output 根 据 目标 地 址 中 的 sa_family 进 行 跳 转 。 我 们 在 图 4-16 中 仅 显 示 
了 case 为 AF_INET、RAF_ISO 和 AEF_UNSPEC 的 代码， 而 略 过 了 case AF_ISO 的 代码 。 

case AF_INET 调 用 arpresolve 来 决定 与 目标 IP 地 址 相对 应 的 以 太 网 地 址 。 如 果 以 太 网 
地 址 已 存在 于 ARP 高 速 缓 存 中 ， 则 arpresolve 返 回 1， 并 且 ether_output 继 续 执行 。 否 
则 ， 这 个 1P 分 组 由 ARP 控 制 ， 并 且 ARP 判 断 地 址 ， 从 函数 in_arpinput 调 用 
ether, output. 

假设 ARP 高 速 缓存 包含 硬件 地 址 ，ether_output 检 查 是 否 分 组 要 广播 ， 并 且 接 口 是 否 
是 单 向 的 (例如 ， 它 不 能 接收 自己 发 送 的 分 组 )。 如 果 都 成 立 ， 则 m_copy 复 制 这 个 分 组 。 在 执 
行 switch 后 , 这 个 复制 的 分 组 同 到 达 以 太 网 接口 的 分 组 一 样 进行 排队 。 这 是 广播 定义 的 要 求 ， 
发 送 主 机 必须 接收 这 个 分 组 的 一 个 备份 。 

我 们 在 第 12 章 会 看 到 多 播 分 组 可 能 会 环 回 到 输出 接口 而 被 接收 。 

5. 显 式 以 太 网 输出 
142-146 有 些 协议 ， 如 ARP， 需 要 显 式 地 指定 以 太 网 目的 地 和 类 型 。 地 址 族 类 常量 
AF_UNSPEC 指 出 : dst 指 向 一 个 以 太 网 首部 。bcopy 复 制 edst 中 的 目标 地 址 ， 并 把 以 太 网 
类 型 设 为 Ltype。 它 不 必 调 用 arpresolve (如 AF_INET)， 因 为 以 太 网 目标 地 址 已 由 调用 者 
显 式 地 提供 了 。 l 

6. 未 识别 的 地 址 族 类 
147-151 未 识别 的 地 址 族 类 产生 一 个 控制 台 消 息 ， 并 且 ether_output 返 回 EAFNOSUPPORT。 

图 4-17 所 示 的 是 ether_output 的 下 一 部 分 : 构造 以 太 网 帧 。 


- if ethersubr.c 
152 if (mcopy) 
153 (void) looutput(ifp, mcopy, dst, rt); 
154 /* 
155 * Add local net header. If no space in first mbuf, 
156 * allocate another. 
157 */ 
158 M PREPEND(m, sizeof(struct ether header), M DONTWAIT); 
159 if (m == O) 
160 senderr (ENOBUFS); 
161 eh - mtod(m, struct ether header *); 
162 type - htons((u short) type); 
163 bcopy((caddr t) &type, (caddr t) &eh-»ether type, 
164 sizeof(eh--ether type)):; 
165 bcopy((caddr t)edst, (caddr t)eh-»ether dhost, sizeof (edst)); 
166 bcopy((caddr t)ac-»ac, enaddr, (caddr t)eh-»ether shost, 
-> ; 
167 sizeof (eh->ether_shost)) if ethersubr.c 
图 4-17 函数 ether_output: 构造 以 太 网 帧 
7. 以 太 网 首部 


152-167 ”如 果 在 switch 中 的 代码 复制 了 这 个 分 组 ， 这 个 分 组 副本 同 在 输出 接口 上 接收 到 
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的 分 组 一 样 通过 调用 Looutput 来 处 理 。 环 回 接口 和 looutput 在 3$.4 节 讨论 。 
M_PREPEND 确 保 在 分 组 的 前 面 有 14 字 节 的 空间 。 


大 多 数 协议 要 在 mbuf 链 表 的 前 面 留 一 些 空 间 ， 因 此 ，M_PREPEND 仅 需要 调整 一 


些 指针 (例如 ，16.7 节 中 UDP 输出 的 sosend 和 13.6 节 的 igmp_sendreport)。 


ether_output 用 type、edst 和 ac_enaddr( 图 3-26) 构 成 以 太 网 首部 。 


ac_enaddr 是 与 此 输出 接口 关联 的 以 太 网 单 播 地 址 ， 并 且 是 所 有 从 此 接口 传输 的 帧 
的 源 地 址 。ether_header 用 ac_enaddr 重 写 调 用 者 可 能 在 ether_header 结 构 
中 指定 的 源 地 址 。 这 使 得 伪造 一 个 以 太 网 帧 的 源 地 址 变 得 更 难 。 


这 时 ，mbuf 包 含 一 个 除 32 bit CRC 以 外 的 完整 以 太 网 帧 ，CRC 由 以 太 网 硬件 在 传输 时 计 
算 。 图 4-18 所 示 的 代码 对 设备 要 传送 的 帧 进行 排队 。 





168 
169 
170 
171 
172 
173 


- if ethersubr.c 
s - splimp(); 
/* : 
* Queue message on interface, and start output if interface 
* not yet active. 
*/ 
if (IF QFULL(&ifp-»if snd)) ( 
IF DROP(&ifp-»if snd); 
splx(s); 
senderr (ENOBUFS); 
} 
IF ENQUEUE(&ifp-»if snd, m); 


if ((ifp-»if flags & IFF OACTIVE) == 0) 
(*ifp-»if start) (ifp); 
splx(s); 


ifp->if_obytes += len + sizeof (struct ether header); 
if (m-»m flags & M MCAST) 

ifp-»if omcasts**; 
return (error); 


bad: 


if (m) 
m freem(m); 
return (error); 


0) MM if. ethersubr.c 


图 4-18 dEether output: 输出 排队 


168-185 ”如果 输出 队列 为 空 ，ether_output 丢 弃 此 帧 ， 并 返回 ENOBUFS。 如 果 输 出 队 
列 不 为 空 ， 这 个 帧 放置 到 接口 的 发 送 队列 中 ， 并 且 车 接口 未 激活 ， 接 口 的 1f_start 函 数 传 


输 下 一 帧 。 


186-190 宏 senderr 跳 到 bad， 在 这 里 帧 被 丢弃 ， 并 返回 一 个 差错 码 。 


4.3.5 lestartğ 


函数 1estart 从 接口 输出 队列 中 取出 排队 的 帧 ， 并 交 给 LANCE 以 太 网 卡 发 送 。 如 果 设 备 
空闲 ， 调 用 此 函数 开始 发 送 帧 。ether_output( 图 4-18) 的 最 后 是 一 个 例子 ， 直 接 通过 接口 
的 if_start 畏 数 调用 lestart。 

如 果 设 备 忙 ， 当 它 完 成 了 当前 帧 的 传输 时 产生 一 个 中 断 。 设 备 调用 lestart 来 退 队 并 传 
输 下 一 帧 。-- 旦 开始 ， 协议 层 不 再 用 调用 lestart 来 排队 帧 ， 因 为 驱动 程序 不 断 退 队 并 传输 
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帧 ， 直 到 队列 为 空 为 止 。 
图 4-19 所 示 的 是 函数 1estart。lestart 假 设 已 调用 splimp 来 阻塞 所 有 设备 中 断 。 


if le.c 
325 lestart(ifp) if 
326 struct ifnet *ifp; 
327 ( 
328 struct le softc *le = &le softc[ifp-»if unit]; 
329 struct letmd *tmd; 
330 struct mbuf *m; 
331 int len; 
332 if ((le-»sc if.if, flags & IFF RUNNING) == 0) 
333 return (0); 
/* device-specific code */. 
335 do { 
/* device-specific code */ 
340 IF DEQUEUE(&le-»sc if.if snd, m); 
341 if (m == 0) 
342 return (0); 
343 len = leput(le-»sc, r2-»ler2 tbuf[le-»-sc tmd], m); 
344 /* 
345 * If bpf is listening on this interface, let it 
346 * see the packet before we commit it to the wire. 
347 */ 
348 if (ifp-»if bpf) 
349 bpf tap(ifp-»if bpf, le-»sc r2-»ler2 tbuf[le-»sc tmd], 
350 len); 
/* device-specific code */ 
359 ) while (-«1e-»sc txcnt < LETBUF); 
360 le-»sc if.if flags |= IFF, OACTIVE; 
361 return (0); 
362 ) ; 
if lec 





图 4-19 iE lestart 


1. 接口 必须 初始 化 
325-333 如 果 接 口 没 有 初始 化 ，lestart 立 即 返回 。 
2. 将 帧 从 输出 队列 中 退 队 
335-342 ”如 果 接 口 已 初始 化 ， 下 一 帧 从 队列 中 移 去 。 如 果 接 口 输出 队列 为 空 ， 则 lestart 


返回 。 


3. 传输 帧 并 传递 给 BPF 


343-350 


Leput 将 m 中 的 帧 复制 到 leput 第 一 个 参数 所 指向 的 硬件 缓存 中 。 如 果 接 口 带 有 


BPF， 将 帧 传 给 bpf_tap。 我 们 跳 过 硬件 缓存 中 力 传输 的 设备 专用 初始 化 代码 。 
4. 如 果 设 备 准备 好 ， 重 复发 送 多 帧 
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359 当 Le->sc_txcnt 等 于 LETBUF 时 ，lestart 停 止 给 设备 传送 帧 。 有 些 以 太 网 接口 能 
排队 多 个 以 太 网 输出 帧 。 对 于 LANCE 驱 动 器 ，LETBUF 是 此 驱动 器 硬件 传输 缓存 的 可 用 个 数 ， 
并 且 1e->sc_txcnt 保 持 跟 踪 有 多 少 个 缓存 被 使 用 。 
5. 将 设备 标记 为 忙 
360-362 最 后 ， lestart 在 ifnet 结 构 中 设置 TIFF_OACTIVE 来 标识 这 个 设备 忙于 传输 帧 。 
在 设备 中 将 多 个 要 传输 的 帧 进行 排队 有 一 个 负面 影响 。 根 据 [Jacobson 1998a], 
LANCE 苍 片 能 够 在 两 个 帧 闻 以 很 小 的 时 延 传 输 排 队 的 帧 。 不 幸 的 是 ， 有些 ( 差 的 ) 以 
太 网 设备 会 丢失 幅 ， 因 为 它们 不 能 足够 快 地 处 理 输入 的 数据 。 
在 一 个 应 用 如 NEFS 中 ， 这 会 很 糟 粒 地 互相 影响 。NES 发 送 大 的 UDP 数据 报 ( 经 常 
是 超过 8192 字 节 )， 数 据 报 被 IP 分 片 ， 并 在 LANCE 设 备 中 作为 多 个 以 太 网 帧 排队 。 分 
片 在 接收 方 丢 失 ， 当 NEFS 重 传 整 个 UDP 数据 报时 ， 会 导致 很 多 未 完成 的 数据 报 极 大 的 
时 廷 。 
Jacobson 提 出 Sun 的 LANCE 驱 动 器 一 次 只 排队 一 个 帧 就 可 能 避免 这 一 问题 。 


4.4 ioct1 系 统 调用 


ioct1 系 统 调用 提供 一 个 通用 命令 接口 ， 一 个 进程 用 它 来 访问 一 个 设备 的 标准 系统 调用 
所 不 支持 的 特性 。ioct1 的 原型 为 : 

int ioctl(int fd, unsigned long com,:-); 

fd 是 一 个 描述 符 ， 通 常 是 一 个 设备 或 网 络 连 接 。 每 种 类 型 的 描述 符 都 支持 它 自己 的 一 套 
ioct1 命 令 ， 这 套 命令 由 第 一 个 参数 com 来 指定 。 第 三 个 参数 在 原型 中 显示 为 “. - ."， 因 为 
它 是 依赖 于 被 调用 的 ioct1i 命 令 的 类 型 的 指针 。 如 果 命 令 要 取 回 信息 ， 第 三 个 参数 必须 是 指 
向 一 个 足够 保存 数据 的 缓存 的 指针 。 在 本 书 中 ， 我 们 仅 讨论 用 于 插口 描述 符 的 ioct1 命 令 。 

我 们 显示 的 系统 调用 的 原型 是 一 个 进程 进行 系统 调用 的 原型 。 在 第 15 章 中 我 们 

会 看 见 在 内 核 中 的 这 个 函数 还 有 一 个 不 同 的 原型 。 

我 们 在 第 17 章 讨论 系统 调用 ioct1 的 实现 ， 但 在 本 书 的 各 个 部 分 讨论 ioct1 单 个 命令 的 
实现 。 

我 们 讨论 的 第 一 个 ioct1 命 令 提 供 对 讨论 过 的 网 络 接口 结构 的 访问 。 我 们 总 结 的 本 书 中 
所 有 的 ijocti 命 令 如 图 4-20 所 示 。 




































SIOCGIFCONF struct ifconf * | ifconf 获取 接口 配置 清单 
















SIOCGIFFLAGS struct ifreq ifioctl 获得 接口 标志 
SIOCGIFMETRIC | struct ifreq ifioctl 获得 接 门 度量 





SIOCSIFFLAGS 
SIOCSIFMETRIC 


ifioctl 
ifioctl 


设置 接口 标志 
设置 接口 度量 








* 
* 
struct ifreq * 
* 








Struct ifreq 
图 4-20 接口 ioct1l 的 命令 
第 一 列 显 示 的 符号 常量 标识 ioct1 命 令 (第 二 个 参数 ，com)。 第 二 列 显示 传递 给 第 一 列 
所 显示 的 命令 的 系统 调用 的 第 三 个 参数 的 类 型 。 第 三 列 是 实现 这 个 命令 的 函数 的 名 称 。 
图 4-21 显 示 处 理 ioct1 命 令 的 各 种 函数 的 组 织 。 带 阴影 的 函数 我 们 在 本 章 中 说 明 。 其 余 
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的 函数 在 其 他 章 说 明 。 





if ioctl 





图 4-21 在 本 章 说 明 的 ioctl 国 数 


4.4.1 Iftioct1L 函 数 


系统 调用 ioct1 将 图 4-20 所 列 的 5 种 命令 传递 给 图 4-22 所 示 的 ificct1 国 数 。 

394-405 对 于 命令 SIOCGIFCONF，ifioctl1 调 用 ifconf 来 构造 一 个 可 变 长 1freq 结 构 
的 表 。 

406-410 对 于 其 他 iocti 命 令 ， 数 据 参 数 是 指向 一 个 i1freq 结 构 的 指针 。ifunit 在 
ifnet 列 表 中 查找 名 称 为 进程 在 ifr->ifr_name 中 提供 的 文本 名 称 (例如 : “s10”, “lel” 
或 “1o0”) 的 接口 。 如 果 没 有 匹配 的 接口 ，i fioct1 返 回 ENXIO。 晋 下 的 代码 依赖 于 cma， 
它们 在 图 4-29 中 说 明 。 

447-454 如 果 接 口 ioct1 命 令 不 能 被 识别 ，ifioct1 把 命令 发 送 给 与 所 请 求 播 口 关联 的 协 
议 的 用 户 要 求 函数 。 对 于 IP， 这 些 命令 以 一 个 UDP 插 口 发 送 并 调用 udp_usrreq。 这 一 类 命 
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令 在 图 6-10 中 描述 。23.10 节 将 详细 讨论 函数 udp_usrreq。 
如 果 控 制 到 达 switch 语 名 外， 返回 0。 
394 IHRE ^7 07 MM ifc 
394 int y 
395 ifioctl(so, cmd, data, p) 
396 struct socket *so; 
397 int cmd; 
398 caddr t data; 
399 struct proc *p; 





400 ( 
401 Struct ifnet *ifp; 
402 struct ifreq *ifr; 
403 int error; 
404 if (cmd == SIOCGIFCONF) 
405 return (ifconf(cmd, data)); 
406 ifr - (struct ifreq *) data; 
407 ifp = ifunit(ifr-»ifr name), 
408 if (ifp == 0) 
409 return (ENXIO); 
410 switch (cmd) { 
| > a 
/* other interface ioctl commands (Figures 4.29 
447 default: 
448 if (so-»so, proto == 0) 
449 return (EOPNOTSUPP); 
450 return ((*so-»so proto-»pr usrreq) (so, PRU CONTROL, 
451 cmd, data, ifp)): 
452 ) l 
453 return (0); 


图 4-22 函数 ifioct1: 综述 与 SIOCGIFCONF 


4.4.2 ifconf 函 数 


ifconf 为 进程 提供 一 个 标准 的 方法 来 发 现 一 个 系统 中 的 接口 和 配置 的 地 址 。 由 结构 
ifreq 和 ifconf 表 示 的 接口 信息 如 图 4-23 和 图 4-24 所 示 .。 
262-279 一 个 i1freq 结 构 包 含 在 ifr_name 中 一 个 接口 的 名 称 。 在 联合 中 的 其 他 成 员 被 各 
种 iocti 命 令 访问 。 通 常 ， 用 宏 来 简化 对 联合 的 成 员 的 访问 语法 。 
292-300 在 结构 ifconf 中 ，ifc_len 是 ifc_buf 指 向 的 缓存 的 字 节 数 。 这 个 缓存 由 一 个 
进程 分 配 ， 但 由 ifconf 用 一 个 具有 可 变 长 ifreqg 结 构 的 数组 来 填充 。 对 于 函数 1fconf， 
ifr_addr 是 结 物 ifreq 中 联合 的 相关 成 员 。 每 个 i freq 结 构 有 一 个 可 变 长 度 ， 因 为 
ifr_addr (一 个 sockadar 结 构 ) 的 长 度 根据 地 址 的 类 型 而 变 。 必 须 用 结构 sockadqr 的 成 员 
sa_len 来 定位 每 项 的 结束 。 图 4-25 说 明了 ifconf 所 维护 的 数据 结构 。 

在 图 4-25 中 ， 左 边 的 数据 在 内 核 中 ， 而 右边 的 数据 在 一 个 进程 中 。 我 们 用 这 个 图 来 讨论 
图 4-26 中 所 示 的 1fconf 隧 数 。 
462-474 ifconf 的 两 个 参数 是 cmd, CRZ; data， 它 指向 此 进程 指定 的 i fconf 


结构 的 一 个 副本 。 
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ifh 


262 struct ifreq { 


263 $define IFNAMSIZ 16 

264 char ifr name[IFNAMSIZ]; /* if name, e.g. "enO" */ 
265 union ( 

266 struct  sockaddr ifru, addr; 

267 struct  sockaddr ifru dstaddr; 

268 struct  sockaddr ifru broadaddr; 

269 short ifru flags; 

270 int ifru metric; 

271 caddr t ifru data; 

272 ) ifr ifru; 

273 #define ifr addr ifr ifru.ifru addr /* address */ 

274 #define ifr dstaddr ifr ifru.ifru, dstaddr /* other end of p-to-p link */ 
275 ddefine ifr broadaddr ifr ifru.ifru broadaddr /* broadcast address */ 
276 tdefine ifr flags ifr ifru.ifru flags /* flags */ 

277 4define ifr metric ifr ifru.ifru metric /* metric */ 

278 #define ifr data ifr ifru.ifru data /* for use by interface */ 
279 ); 


ifh 





图 4-23 结构 ifreq 
if.h 





292 struct ifconf ( 


293 int ifc len; /* size of associated buffer */ 
294 union { 

295 caddr t ifcu, buf; 

296 struct  ifreq *ifcu req; 

297 ) ifc ifcu; 


298 #define ifc buf ifc ifcu.ifcu buf /* buffer address */ 
299 #define ifc req ifc ifcu.ifcu req /* array of structures returned */ 


300 ); 


ifh 





图 4-24 结构 ifconf 


ifc data (process) 













ifconf() 


ifconf() 






















|sig — [seekadaz int | 
[s10  seckaddr di — | 
[we0 [sockaddr int) | 

[veo seekadár iso) | 
[wen [sockar a10 | 
aa in() 
kadar dl() 
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内 核 进程 


图 4-25 ifconf 数 据 结 构 
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462 int if.c 
463 ifconf(cmd, data) 

464 int cmd; 

465 caddr t data; 

466 ( 

467 struct ifconf *ifc - (struct ifconf *) data; 

468 struct ifnet *ifp - ifnet; 

469 Struct ifaddr *ifa; 

470 char *cp, *ep; 

471 Struct ifreq ifr, *ifrp; 

472 int space = ifc-»ifc len, error = 0; 

473 ifrp = ifc-»ifc req; 

474 ep = ifr.ifr name + sizeof(ifr.ifr name) - 2; 

475 for (; space > sizeof(ifr) && ifp; ifp = ifp-»if next) { 

476 strncpy(ifr.ifr name, ifp-»if name, sizeof(ifr.ifr name) - 2); 
477 for (cp = ifr.ifr name; cp < ep && *cp; Cp^*) 

478 continue; 

479 *cp++ = 'O' + ifp-»if | unit; 

480 *cp = 'N0'; 

481 if ((ifa = ifp-»if addrlist) == 0) ( 

482 bzero((caddr t) & ifr.ifr addr, sizeof(ifr. ifr _adār)); 
483 error = copyout((caddr t) & ifr, (caddr t) ifrp, 

484 sizeof(ifr)); 

485 if (error) 

486 break; 

487 space -= sizeof(ifr), ifrp**; 

488 ) eise 

489 for (; space > sizeof(ifr) && ifa; ifa = ifa-»ifa next) ( 
490 struct sockaddr *sa - ifa-»ifa, addr; 

491 if (sa-»sa len <= sizeof(*sa)) i 

492 ifr.ifr addr - *sa; 

493 error - copyout((caddr t) & ifr, (caddr t) ifrp, 
494 sizeof (ifr)); 

495 ifrp**; 

496 ) else ( 

497 space -= sa-»sa len - sizeof(*sa); 

498 if (space « sizeof(ifr)) 

499 break; 

500 error - copyout((caddr t) & ifr, (caddr t) ifrp, 
501 Sizeof(ifr.ifr name)); 

502 if (error == O0) 

503 error - copyout((caddr t) sa, 

504 (caddr t) & ifrp-»ifr addr, sa-»sa len); 
505 ifrp = (struct ifreq *) 

506 (sa-»sa len + (caddr t) & ifrp-»ifr addr); 
507 } 

508 if (error) 

509 break; 

510 space -= sizeof(ifr); 

511 J 

512 } 

513 ifc->ifc_len -= space; 

514 return (error); 


1 
$185 9) i 


图 4-26 函数 ifconf 
ifc 是 强制 为 一 个 1fconf 结 构 指 针 的 Gata。ifp 从 ifnet (列表 头 ) 开 始 遍历 接口 列表 ， 
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而 ifa 遍 历 每 个 接口 的 地 址 列表 。cP 和 ep 控制 构造 在 ifr 中 的 接口 文本 名 称 ，ifr 是 一 个 
ifreqg 结 构 ， 它 在 接口 名 称 和 地 址 复制 到 进程 的 缓存 前 保存 接口 名 称 和 地 址 。ifrq 指 向 这 个 
缓存 ， 并 且 在 每 个 地 址 被 复制 后 指向 下 一 个 。space 是 进程 缓存 中 剩余 字 节 的 个 数 ，cp 用 来 
搜寻 名 称 的 结尾 ， 而 ep 标志 接口 名 称 数字 部 分 最 后 的 可 能 位 置 。 

475-488 for 循 环 遍 历 接口 列表 。 对 于 每 个 接口 ， 文 本 名 称 被 复制 到 ifr_name， 在 
ifr_name 的 后 面 跟 着 if_unit 数 的 文本 表示 。 如 果 没 有 给 接口 分 配 地 址 ， 一 个 全 0 的 地 址 被 
构造 ， 所 得 的 1freq 结 构 被 复制 到 进程 中 ， 并 减 小 space， 增 加 i frp。 

489-515 如 果 接口 有 一 个 或 多 个 地 址 ， 用 for 循 环 来 处 理 每 个 地 址 。 地 址 加 到 ifr 中 的 接 
日 名 称 中 ， 然 后 ifEr 被 复制 到 进程 中 。 长 度 超过 标准 sockaddqz 结 构 的 地 址 不 放 到 ifr 中 ， 并 
且 直 接 复制 到 进程 。 在 复制 完 每 个 地 址 后 ， 调 整 space 和 ifrp 的 值 。 所 有 接口 处 理 完 后 ， 更 
新 缓存 长 度 (ifc->ifc_len)， 并 且 ifconf 返 回 。 系 统 调用 ioct1 负 责 将 结构 ifconf 中 
新 的 内 容 复制 回 进程 中 的 结构 ifconf 。 


4.4.3 举例 
图 4-27 显 示 了 以 太 网 、SLIP 和 环 回 接口 被 初始 化 后 的 接口 结构 的 配置 。 


ifnet: le softc[0]: sl softc[0]: loif: 





ifnetí) fnet{} 


k 
arpcom() lH 
ifnet, adárs: le softc() 


sSockaddár dl{} 
sockaddr d1() sockaddr d1() 


图 4-27 接口 和 地 址 数据 结构 
图 4-28 显 示 了 以 下 代码 执行 后 的 ifc 和 buffer 的 内 容 。 


struct ifconf ifc; /* SIOCGIFCONF adjusts this */ 


char buffer[144]; /* contains interface addresses when ioctl returns */ 
int S; /* any Socket */ 

ifc.ifc len - 144; 

ifc.ifc buf - buffer; 


if (ioctl(s, SIOCGIFCONF, &ifc) < 0) ( 
perror("ioctl failed"); ^ 
exit(1); 


) 
这 里 对 命令 SIOCGIFCONF 操 作 的 插口 的 类 型 没有 限制 ， 如 我 们 所 看 到 的 ， 这 个 命令 返回 


所 有 协议 族 类 的 地 址 。 
在 图 4-28 中 ， 因 为 在 缓存 中 返回 的 三 个 地 址 仅 占 用 108 (3 x 36) B, ioctlf$ifc len 
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由 144 改 为 108。 返 回 三 个 sockaddr._d1l 地 址 ， 并 且 这 个 缓存 后 面 的 36 字 节 未 用 。 每 项 的 前 
16 个 字 节 包含 接口 的 文本 名 称 。 在 这 里 ， 这 16 字 节 中 只 有 3 个 字 节 被 使 用 。 


7 —k&ifc 


ifconf() 














ifr addr 
3 (20 宇 | 








图 4-28 SIOCGIFCONF 命 令 返 回 的 数据 


ifr_addr 为 一 个 sockaddr 结 构 的 形式 ， 因 此 第 一 个 值 为 长 度 (20 字 节 )， 且 第 二 个 值 
为 地 址 的 类 型 (18，AF_LINK)。 接 下 来 的 一 个 值 为 sd1l_index， 与 sdl_type 一 样 ， 对 二 每 
个 接口 ， 它 是 不 同 的 (与 TFT_ETHER、IFT_SLIP 和 IFT_LOOP 相 对 应 的 值 为 6、28 和 24)。 

下 面 三 个 值 为 sa_nlen( 文 本 名 称 的 长 度 )、sa_alen( 硬 件 地 址 的 长 度 ) 及 sa_slen( 未 
用 )。 对 于 所 有 三 项 ，sa_nlen 都 为 3。 以 太 网 地 址 的 sa_alen 为 6， 而 SLIP 和 环 回 接口 的 
sa_alen 为 0。sa_slen 总 是 为 0。 

最 后 ， 是 接口 的 文本 名 称 ， 甚 后 面 是 硬件 地 址 ( 仅 对 于 以 太 网 )。SLIP 和 环 回 接口 在 
sockaddr_d1 结 构 中 不 存放 一 个 硬件 级 地 址 。 

在 此 例 中 ， 仅 返回 sockaddr_da1l 地 址 (因为 在 图 4-27 中 没有 配置 其 他 地 址 类 型 )， 因 此 缓 
存 中 的 每 项 大 小 一 样 。 如 果 为 每 个 接口 配置 其 他 地 址 (例如 : IP 或 OSI 地址 )， 它 们 会 同 
sockaddr_d1 地 址 一 起 返回 ， 并 且 每 项 的 大 小 根据 返回 的 地 址 类 型 的 不 同 而 不 同 。 


4.4.4 通用 接口 Loct1 命 令 


图 4-20 中 剩 下 的 四 个 接口 命令 (SIOCGIFFLAGS、SIOCGIFMETRIC、SIOCSIFFLAGS 
和 SIOCSIEMETRIC) 由 国 数 ifioct1 处 理 。 图 4-29 所 示 的 是 处 理 这 些 命令 的 case 语 句 。 

1. SIOCGIFLAGS 和 SIOCGIFMETRIC 
410-416 对 于 两 个 SIOCGxxx 命 令 ，ifioct1 将 每 个 接口 的 jf_flags 或 i1f_metric 值 复 
制 到 ifreq 结 构 中 。 对 于 标志 ， 使 用 联合 的 成 员 ifr_f1ags; 而 对 于 度量 ， 使 用 成 员 
ifr metric (图 4-23)。 

2. SIOCSIFFLAGS 
417-429 为 改变 接口 的 标志 ， 调 用 进程 必须 有 超级 用 户 权 限 。 如 果 进 程 正在 关闭 一 个 运行 
的 接口 或 启动 一 个 未 运行 的 接口 ， 分 别 调用 if_down 和 if_up。 

3. 忽略 标志 IFF_CANTCHAGE 
430-434 回忆 图 3-7， 有 些 接口 标志 不 能 被 进程 改变 。 表 达 式 (ifp->if_flags & 
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IFF_CANTCHANGE) 清 除 能 被 进程 改变 的 接口 标志 ， 而 表达 式 (ifr->ifr_flags & ~ 
IFF_CANTCHANGE) 清 除 在 请 求 中 不 被 进程 改变 的 标志 。 这 两 个 表达 式 进 行 或 运算 并 作为 新 
值 保 存在 ifp->if_f1lags 中 。 在 返回 前 ， 请 求 被 传递 给 与 设备 相关 联 的 1f_ioct1 函 数 ( 例 
如 : LANCE 驱 动 器 的 leioct1 一 一 图 4-31)。 


ifc 
410 switch (cmd) { 
411 case SIOCGIFFLAGS: 
412 ifr->ifr_flags = ifp->if_flags; 
413 break; 
414 Case SIOCGIFMETRIC: 
415 ifr-»ifr metric = ifp-»if metric; 
416 break; 
417 Case SIOCSIFFLAGS: 
418 if (error - suser(p-»p ucred, &p-»p acflag)) 
419 return (error); . 
420 if (ifp-»if flags & IFF UP && (ifr-»ifr flags & IFF UP) == 0) ( 
421 int S - splimp(); 
422 if down(ifp); 
423 splx(s); 
424 2 
425 if (ifr->ifr_flags & IFF_UP && (ifp->if_flags & IFF_UP) == 0) { 
426 int s = splimp(); 
427 if_up(ifp); 
428 spix(s); 
429 ) 
430 ifp-»if flags = (ifp-»if flags & IFF CANTCHANGE) | 
431 (ifr-»ifr flags & ^IFF, CANTCHANGE); 
432 if (ifp-»if ioctl) 
433 (void) (*ifp-»if ioctl) (ifp, cmd, data); 
434 break; 
435 case SIOCSIFMETRIC: 
436 if (error = suser(p-»p ucred, &p-»p acflag)) 
437 return (error); 
438 ifp-»if metric = ifr-»ifr metric; 
439 break; . 
-一 ”天 


图 4-29 ”函数 ifioct1: 标志 和 度量 


4. SIOCSIFMETRIC 
435-439 改变 接口 的 度量 要 容易 些 ; 进程 同样 要 有 超级 用 户 权 限 ，ifioct1 将 接口 新 的 度 
量 复 制 到 if._metric 中 。 


4.4.5 if_down 和 if_up 函 数 


利用 程序 i fconfig， 一 个 管理 员 可 以 通过 命令 SI1OCSIFFLAGS 设 置 或 清除 标志 
IFF_UP 来 启用 或 禁用 一 个 接口 。 图 4-30 显 示 了 霄 数 if_down 和 if_up 的 代码 。 
292-302 当 一 个 接口 被 关闭 时 ，IFF_UP 标 志 被 清除 并 且 对 与 接口 关联 的 每 个 地 址 用 
pfctlinput(7.7 节 ) 发 送 命令 PRC_IFDOWN。 这 给 每 个 协议 一 个 机 会 来 响应 被 关闭 的 接口 。 
有 些 协议 ， 如 OSI， 要 使 用 接口 来 终止 连接 。 对 于 IP， 如 果 可 能 ， 要 通过 其 他 接口 为 连接 进行 
重新 路 由 。TCP 和 UDP 忽略 失效 的 接口 ， 并 依赖 路 由 协议 去 发 现 分 组 的 可 选 路 径 。 
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if_qflush 忽 上 略 接口 的 任何 排队 分 组 。rt_ifmsg 通 知 路 由 系统 发 生 的 变化 。TCP 自 动 
重 传 丢失 的 分 组 ; UDP 应 用 必须 自己 显 式 地 检测 这 种 情况 ， 并 对 此 作出 响应 。 





308-315 当 一 个 接口 被 启用 时 ，IFF_UP 标 志 被 设置 ， 并 且 rt_ifmsg 通 知 路 由 系统 接口 状 
态 发 生变 化 。 
if.c 
292 void 
293 if down(ifp) 
294 struct ifnet *ifp; 
295 ( 
296 struct ifaddr *ifa; 
297 ifp-»if flags &- ^"IFF UP; 
298 for (ifa = ifp-»if addrlist; ifa; ifa = ifa-»ifa next) 
299 pfctlinput(PRC IFDOWN, ifa-»ifa addr); 
300 if qflush(&ifp-»if snd); 
301 rt ifmsg(ifp); 
302 ) 
308 void 
309 if up(ifp) 
310 struct ifnet *ifp; 
311 { 
312 struct ifaddr *ifa; 
313 ifp->if_flags |= IFF_UP; 
314 rt ifmsg(ifp); 
315 š 
) ifc 





图 4-30 Hif downdfülif up 


4.4.06 URA., SLIPE 


我 们 看 图 4-29 中 处 理 SITOCSIFFLAGS 命 令 的 代码 ，ifioct1i1 调 用 接口 的 if_ioct1 函 数 。 
在 我 们 的 三 个 例子 接口 中 ， 国 数 sl ioct1 和 1oioct1l 为 这 个 被 ifioct1 忽 略 的 命令 返回 
EINVAL。 图 4-31 显 示 了 函 数 1eioct1 及 LANCE 以 太 网 驱动 程序 的 SIOCSIFFLAGS 命 令 的 处 


理 。 





if le.c 


614 leioctl(ifp, cmd, data) 
615 struct ifnet *ifp; 


616 int 


cmd; 


617 caddr,t data; 


618 ( 
619 
620 
621 
622 


623 


638 





Struct ifaddr *ifa - (struct ifaddr *) data; 
struct le softc *le &le softc[ifp-»if unit]; 
struct leregl *leri le-»sc.r1; 

int S = splimp(), error = O0; 


üs da 


switch (cmd) ( 
/* SIOCSIFADDR code (Figure 6.28} */ 


case SIOCSIFFLAGS: 


图 4-31 函数 leioctl: SIOCSIFFLAGS 
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639 if ((ifp-»if flags & IFF UP) == 0 && 
640 ifp-»if flags & IFF RUNNING) ( 
641 LERDWR(le-»sc.r0, LE,.STOP, lerl-»ler1 rdp); 
642 ifp-»if flags &- ^IFF. RUNNING; 
643 ) else if (ifp-»-if flags & IFF UP && 
644 (ifp-»if flags & IFF RUNNING) -- 0) 
645 leinit(ifp-»if unit); 
646 /* 
647 * If the state of the promiscuous bit changes, the interface 
648 * must be reset to effect the change. 
649 */ 
650 if (((ifp-»if flags ^ le-»sc iflags) & IFF PROMISC) && 
651 (àfp-»if flags & IFF RUNNING)) ( 
652 le-»sc.iflags = ifp-»if flags; 
653 lereset(ifp-»if unit); 
654 . lestart(ifp); 
655 ) 
656 break; 
/* 
672 default: 
673 error - EINVAL; 
674 } 
675 Splx(s); 
676 return (error); 
m) if le.c 
图 4-31 (£5) 


614-623 leioct1 把 第 三 个 参数 aata 转 换 为 一 个 tfaddr 结 构 的 指针 ， 并 保存 在 ifa 中 。 
le 指针 引用 下 标 为 fp->if_unit 的 le_softc 结 构 。 基 于 cmd 的 switch 语 名 构成 了 这 个 
函数 的 主体 。 
638-656 在 图 4-31 中 仅 显 示 了 case SIOCSIFFLAGS。 这 次 ifioct1 调 用 leiocti， 接 
口 标志 被 改变 。 显 示 的 代码 强制 物理 接口 进入 标志 所 配置 的 状态 。 如 果 要 关闭 接口 (没有 设 
置 IFF_UP)， 但 接口 正在 工作 ， 则 关闭 接口 。 若 要 启动 未 操作 的 接口 ， 接 口 被 初始 化 并 重 
启 。 | 
RRA, 那么 就 关闭 接口 ， 复 位 ， 并 重启 来 实现 这 种 变化 。 
仅 当 要 求 改变 IFF_PROMISC 比 特 时 包含 异 或 和 IFF_PROMITSC 的 表达 式 才 为 
Å. 
672-677 处 理 未 识别 命令 的 default 情 况 分 支 发 送 EINVAL， 并 在 函数 的 结尾 将 它 返 回 。 


4.5 小 结 


在 本 章 中 ， 我 们 说 明了 LANCE 以 太 网 设备 驱动 程序 的 实现 ， 这 个 驱动 程序 在 全 书 中 多 处 
引用 。 我 们 还 看 到 了 以 太 网 驱动 程序 如 何 检 测 输入 中 的 广播 地 址 和 多 播 地 址 ， 如 何 检测 以 太 
网 和 802.3 封 装 ， 以 及 如 何 将 输入 的 帧 分 用 到 相应 的 协议 队列 中 。 在 第 21 章 中 我 们 会 看 到 IP 地 
址 ( 单 播 、 广 播 和 多 播 ) 是 如 何在 输出 转换 成 正确 的 以 太 网 地 址 。 
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最 后 ， 我 们 讨论 了 协议 专用 的 ioct1 命 令 ， 它 用 来 访问 接 日 层 数据 结构 。 
习题 | 
41 在 leread 中 ， 当 接收 到 一 个 广播 分 组 时 ， 总 是 设置 标志 M_MCAST( 除 了 M_BCAST 
外 )。 与 ether_input 的 代码 比较 ， 为 什么 在 leread 和 ether_input 中 设置 此 标 
志 ? 它 至 关 重 要 吗 ? 哪个 正确 ? 
42 在 ether_input( 图 4-13) 中 ， 如 果 交 换 广播 地 址 和 多 播 地 址 检测 次 序 会 发 生 什 么 情 
况 ? 如 果 在 检测 多 播 地 址 的 if 语句 前 加 上 一 个 el se 会 发 生 什 么 情况 ? 


第 5 章 接口: SLIP 和 环 回 


5.1 引言 


在 第 4 章 中 ， 我 们 查看 了 以 太 网 接口 。 在 本 章 中 ， 我 们 讨论 SLIP 和 环 回 接口 ， 同 样 用 
ioct1 命 令 来 配置 所 有 网 络 接口 。SLIP 驱 动 程序 使 用 的 TCP 压 缩 算法 在 29.13 节 讨论 。 环 回 驱 
动 程序 比较 简单 ， 在 这 里 我 们 要 对 它 进行 完整 地 讨论 。 

像 图 4-2 一 样 ， 图 5-1 列 出 了 针对 我 们 三 个 示例 驱动 程序 的 入 口 点 。 


leinit 初始 化 硬件 
if output ether output sloutput looutput 接收 并 将 要 传输 的 分 组 进行 排队 
if start lestart 开始 传输 帧 


if done 输出 完成 (未 用 ) 

if ioctl leioctl i loioctli 从 一 个 进程 处 理 ioct1 命 令 

if reset lereset 将 设备 重新 设置 为 一 已 知 状态 
if_watchdog 监视 设备 的 故障 或 采集 统计 信息 


图 5-1 例子 驱动 程序 的 接口 函数 








5.2 ”代码 介绍 
- SLIP 和 环 回 驱动 程序 的 代码 文件 列 于 图 5-2 中 。 


net/if slvar.h SLIPzE Y. 
net/if sl.c SLIP 驱 动 程序 函数 
坏 回 驱动 程序 






net/if loop.c 





图 5-2 本 章 讨论 的 文件 


5.2.1 全 局 变量 
d rer 结构 。 全 局 变量 见 图 5-3。 


| 
sl | sl softe | struct sl. | struct slo softc [] SLIP 接 口 
loif struct ifnet 环 回 接口 

图 $-3 ”本章 中 介绍 的 全 局 变量 


sl_softc 是 一 个 数组 ， 因 为 可 能 有 很 多 SLIP 接 口 。1oif 不 是 一 个 数组 ， 因 为 只 可 能 有 
一 个 环 回 接口 。 
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5.22 统计 量 


在 第 4 章 讨论 的 1fnet 结 构 的 统计 也 会 被 SLIP 和 环 回 驱动 程序 更 新 。 采 集 的 另 一 个 统计 量 
( 它 不 在 ifnet 结 构 中 ) 显示 在 图 5-4 中 。 


| tk nin | 被 任何 串 行 接口 (被 SLIP 驱 动 程序 更 新 ) 接 收 的 字 节 数 || 


图 5-4 变量 tk_nin 

















5.3 SLIPA 


一 个 SLIP 接 口 通过 一 个 标准 的 异步 串 行 线 与 一 个 远程 系统 通信 。 像 以 太 网 一 样 ，SLIP 定 
义 了 一 个 标准 的 方法 对 传输 在 串 行 线 上 的 I 分 组 进行 组 帧 。 图 5-5 显 示 了 将 一 个 包 信 SLIP 保 留 
字符 的 邢 分 组 封装 到 一 个 SLIP 帧 中 。 

分 组 用 SLIP END 字 符 0xc0 来 分 割 开 。 如 果 END 字 符 出 现在 正 分 组 中 ， 则 在 它 前 面 填充 
SLIP ESC 字 符 0xdb， 并 且 在 传输 时 将 它 蔡 换 为 0x4c。 当 ESC 字 符 出 现在 IP 分 组 中 时 ， 就 在 
它 前 面 填充 ESC 字 符 0xdb， 并 在 传输 时 将 它 替 换 为 0xdaq。 

因为 在 SLIP 帧 (与 以 太 网 比较 ) 中 没有 类 型 字段 ，SLIP 仪 适用 于 传输 下 分 组 。 


FF- 一 一 IP 分 组 


在 分 组 中 的 END 在 分 组 中 的 ESC | 
HH A ëE 
de T B 





图 5-5 将 一 个 IP 分 组 进行 SLIP 封 装 


在 RFC 1055 [Romkey 1988] 中 讨论 了 SLIP， 陈述 了 它 的 很 多 弱点 和 非 标准 情况 。 
卷 1 中 包含 了 SLIP 封 装 的 详细 讨论 。 

点 对 点 协议 (PPP) 被 设计 用 来 解决 SLIP 的 问题 ， 并 提供 一 个 标准 方法 来 通过 一 个 
串 行 链 路 传输 帧 。PPP 在 RFC 1332 [McGregor 1992] 和 RFC 1548 [Simpson 1993] 中 定 
义 。Net/3 不 包含 一 个 PPP 的 实现 ， 因 此 我 们 不 在 本 书 中 讨论 它 。 关 于 PPP 的 更 多 信息 
见 卷 1 的 2.6 节 。 附 录 B 讨 论 在 哪里 获得 一 个 PPP 实 现 的 参考 。 


5.3.1 SLIP 线 路 规程 ; SLIPDISC 


在 Net/3 中 ，SLIP 接 口 依靠 一 个 异步 品行 设备 驱动 器 来 发 送 和 接收 数据 。 传 统 上 ， 这 些 设 
备 驱动 器 称 为 TTY( 电 传 机 )。Net/3 TTY 子 系统 包括 一 个 线路 规程 (Line discipline) 的 概念 ， 这 
个 线路 规程 作为 一 个 在 物理 设备 和 WO 系统 调用 (如 read 和 write) 之 间 的 过 滤器 。 一 个 线路 规 
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程 实现 以 下 特性 : 如 行 编辑 、 换 行 和 回 车 处 理 、 制 表 符 扩展 等 等 。SLIP 接 口 作为 TTY 子 系统 
的 一 个 线路 规程 ， 但 它 不 把 输入 数据 传 给 从 设备 读数 据 的 进程 ， 也 不 接受 来 自 向 设备 写 数据 
的 进程 的 输出 数据 。SLIP 接 口 将 输入 分 组 传 给 P 输 入 队列 ， 并 通过 SLIP 的 i1fnet 结 构 中 的 肖 
数 if_output 来 获得 要 输出 的 分 组 。 内 核 通 过 一 个 整数 常量 来 标识 线路 规程 ， 对 于 SLIP， 该 
常量 是 SLIPDISC 。 

图 5-6 左 边 显示 的 是 传统 的 线路 规程 ， 右 边 是 SLIP 规 程 。 我 们 在 右边 用 slattach 显 示 进 
程 ， 因 为 它 是 初始 化 SLIP 接 口 的 程序 。TTY 子 系统 和 线路 规程 的 细节 超出 了 本 书 的 范围 。 我 
们 仅 介 绍 理解 SLIP 代 码 工 作 的 相关 信息 。 对 于 更 多 关于 TTY 子 系统 的 信息 见 [Leffler et al. 
1989]。 图 5-7 列 出 了 实现 SLIP 驱 动 程序 的 函数 。 中 间 的 列 指示 函数 是 否 实现 线路 规程 特性 和 
(或 ) 网 络 接 口 特性 。 
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ER 申 行 线 
图 5-6 SLIP 接 口 作为 一 个 线路 规程 


| 初始 化 51_ softc 结 构 ， 并 将 它 连 接 到 i fnet 列 表 
slinit 初始 化 SLIP 数 据 结构 
sioutput 对 相关 TTY 设 备 上 要 传输 的 输出 分 组 进行 排队 
slioctl 处 理 插口 ioct1 请 求 


将 一 个 设备 缓存 转换 成 -- 个 mbuf 链 表 


slopen 将 s1_softc 结 构 连 接 到 TTY 设 备 ， 并 初始 化 驱动 程序 
取消 TTY 设 备 与 si1_softc 结 构 的 连接 ， 标 记 接口 为 关闭 ， 并 释放 存储 器 
sltioctl 处 理 TTY iocti 命 令 a 
sistart 从 队列 中 取 分 组 ， 并 开始 在 TTY 设 备 上 传输 数据 
slinput 处 理 从 TTY 设 备 输入 的 字 节 ， 如 果 整 个 帧 被 接收 ， 就 排列 输入 的 分 组 
图 5-7 SLIP 设 备 驱动 程序 的 函数 


在 NeV3 中 的 SLIP 驱 动 程 序 通 过 支持 TCP 分 组 首部 压缩 来 得 到 更 好 的 吞吐 量 。 我 们 在 29.13 
节 讨 论 分 组 首部 压缩 ， 因 此 ， 图 5-7 跳 过 实现 这 些 特 性 的 函数 。 


Net SLIP 接 口 还 支持 一 种 转 义 序列 。 当 接收 方 检测 到 这 个 序列 时 ， 就 终止 SLIP 
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的 处 理 ， 并 将 对 设备 的 榨 制 返回 给 标准 线路 规程 。 我 们 这 里 的 讨论 忽略 这 个 处 理 。 
图 5-8 显 示 了 作为 一 个 线路 规程 的 SLIP 和 作为 一 个 网 络 接口 的 SLIP 间 的 复杂 关系 。 


Cipintr D sloutput 







sl softc[0]: 


a H [secas JH 





sistart 





| SY tes | i 


输入 字符 ds 输出 字符 
图 5-8 SLIP 设 备 驱 动 程序 


在 Net/3 中 ，sc_ttyp 和 t_sc 指 向 tty 结 构 和 sl_softc[0] 结 构 。 由 于 使 用 两 
个 箭头 会 使 图 显得 较 乱 ， 我 们 用 一 对 相反 的 箭头 表示 两 个 指针 来 说 明 结构 间 的 双 链 。 


在 图 5-8 中 包含 很 多 信息 : 

。 结 构 sl_softc 表 示 的 网 络 接口 和 结构 tty 表 示 的 TTY 设 备 。 

“输入 字 节 存放 在 答 中 (显示 在 结构 tyy 后 面 )。 当 一 个 完整 的 SLIP 帧 被 接收 时 ， 封 装 的 IE 分 
组 被 slinput 放 到 ipintrq 中 。 

。 输 出 分 组 从 if_snd 或 sc_fastq 退 队 ， 转 换 成 SLIP 帧 ， 并 被 slstart 传 给 TTY 设 备 。 
TTY 缓 存 将 字 节 输出 到 结构 clist。 函 数 t_oproc 取 完 ， 并 传输 在 cl1ist 结 构 中 的 字 
节 。 


5.3.2 SLIP 初始 化 : slopen 和 slinit 


我 们 在 3.7 节 讨论 了 slattach 是 如 何 初始 化 s1_softc 结 构 的 。 接 口 虽 然 被 初始 化 ， 但 
还 不 能 操作 ， 直 到 一 个 程序 (通常 是 slattach) 打 开 一 个 TTY 设 备 (例如 : /dev/ttyO1), 并 
发 送 一 个 ioct1 命 令 用 SLIP 规 程 代替 标准 的 线路 规程 才能 操作 。 这 时 ，TTY 子 系统 调用 线路 
规程 的 打开 函数 (在 此 是 slopen)， 此 函数 在 一 个 特定 TTY 设 备 和 一 个 特定 SLIP 接 口 间 建立 关 
联 。slopen 显 示 在 图 5-9 中 。 
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181 int ff slc 
182 slopen(dev, tp) 

183 dev t dev; 

184 struct tty *tp; 

185 ( 

186 struct proc *p - curproc; /* XXX */ 

187 struct sl softc *sc; 

188 int nsl; 

189 int error; 

190 if (error = suser(p-»p ucred, &p-»p acflag)) 

191 return (error); 

192 if (tp-»t line == SLIPDISC) 

193 return (0); 

194 for (nsl = NSL, sc = sl.softc; --nsl >= 0; sc++) 
195 if (sc-»sc ttyp == NULL) ( 

196 if (slinit(sc) == 0) 

197 return (ENOBUFS); 

198 tp-»t sc = (caddr t) sc; 

199 sc->sc_ttyp = tp; 

200 sc->sc_if.if baudrate = tp-»t ospeed; 
201 ttyflush(tp, FREAD | FWRITE); 

202 return (0); 

203 } 

204 return (ENXIO); 

205 } if slc 


图 5-9 国 数 slopen 


181-193 传递 给 slopen 的 两 个 参数 为 : Gev， 一 个 内 核 设备 标识 ，slopen 未 用 此 参数 ; 
tp， 一 个 指向 此 TTY 设 备 相关 tty 结 构 的 指针 。 最 开始 是 一 些 预 防 处 理 : 车 进程 没有 超级 用 
户 权 限 ， 或 TTY 的 线路 规程 已 经 被 设置 为 SLIPDISC， 则 slopen 立 即 返 回 。 

194-205 for 循环 在 sl1_softc 结 构 数组 中 查找 第 一 个 未 用 的 项 ， 调 用 s1linit (5.1045), 
通过 t_sc 和 sc_ttyp 加 进 结构 tty 和 s1_softc， 并 将 TTY 输 出 速率 (t_ospeeqd) 复 制 到 
SLIP 接 口 。ttyflush 丢 充任 何在 TTY 队 列 中 追加 的 输入 输出 数据 。 如 果 一 个 SLIP 接 口 结构 
不 可 用 ，slopen 返 回 ENXIO。 若 成 功 ， 返 回 0。 

注意 ， 第 一 个 变量 sl1_softc 结 构 与 TTY 设 备 相 关 。 如 果 系 统 有 多 个 SLIP 线 路 ， 

在 TTY 设 备 和 SLIP 接 口 间 不 需要 固定 的 映射 。 实 际 上 ， 这 个 映射 依赖 于 slattach 

打开 和 关闭 TTY 设 备 的 次 序 。 

显示 在 图 5-10 中 的 函数 slinit 初 始 化 结构 sl_softc。. 

156-175 ”函数 slinit 分 配 一 个 mbuft 签 ， 并 将 它 用 三 个 指针 连接 到 结构 s1_softc。 当 一 
个 完整 的 SLIP 帧 被 接收 后 ， 输 入 字 节 存储 在 这 个 徐 中 。sc_buf 总 是 指向 乱 中 的 这 个 分 组 的 
起 始 位 置 ，sc_mp 指 向 要 接收 的 下 一 个 字 节 的 位 置 ， 并 且 sc_ep 指 向 这 个 灸 的 结束 。 
sl_compress_init 为 此 链 路 初始 化 TCP 首 部 的 压缩 状态 (29.13 节 )。 

在 图 5-8 中 ， 我 们 看 到 sc_buf 不 指向 徐 的 第 一 个 字 节 。s1iinit 保 留 了 148 字 市 
(BUFOFFSET) 的 空间 ， 因 为 输入 分 组 可 能 含有 一 个 压缩 了 的 首部 ， 它 会 扩展 来 填充 这 个 空间 。 
在 做 中 已 接收 的 字 节 用 阴影 表示 。 我 们 看 到 sc_mp 指 向 接收 的 最 后 一 个 字 节 的 下 一 个 字 节 ， 
并 且 sc_ep 指 向 这 个 和 做 的 结尾 。 图 5-11 显 示 了 在 几 个 SLIP 常 量 间 的 关系 。 
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使 这 个 接口 能 运行 ， 剩 下 的 要 做 的 工作 就 是 给 它 分 配 一 个 卫 地 址 。 同 以 太 网 驱动 程序 一 
样 ， 我 们 将 地 址 分 配 的 讨论 推迟 到 6.6 节 。 


156 Static int if-sLc 
157 slinit(sc) 
158 struct sl softc *sc; 
159 ( 
160 caddr t p; 
161 if (sc-»sc ep -- (u char *) 0) ( 
162 MCLALLOC (p, M WAIT); 
163 if (p) 
164 Sc-»SC ep = (u_char *) p + SLBUFSIZE; 
165 else ( 
166 printf("sl$d: can't allocate bufferAn", sc - sl softc); 
167 Sc-»sc if.if flags &- ^IFF UP; 
168 return (0); 
169 ) 
170 } 
171 Sc-»sc.buf = sc-»sc ep - SLMAX; 
172 Sc--sc mp = sc-»sc buf; 
173 Sl compress init(&sc-»sc comp); 
174 return (1); 
175 ) 
if. sl.c 





图 5-10 dA Slinit 


MCLBYTES — ^mbuff& f)-X lv 
SLBUFSIZE 一 个 未 压缩 的 SLIP 分 组 的 最 大 长 度 一 一 包括 一 个 BPF 首 部 
SLIP HDRLEN SLIP BPF 首 部 的 大 小 


BUFOFFSET 一 个 扩展 的 TCP/IP 首 部 的 最 大 长 度 加 上 一 个 BPF 首 部 的 大 小 

SLMAX 一 个 存储 在 化 中 的 压缩 SLIP 分 组 的 最 大 长 度 

SLMTU SLIP 分 组 的 最 佳 长 度 ; 导致 最 小 的 时 延 ， 同 时 还 有 较 高 的 批量 吞吐 量 
SLIP HIWAT 在 TTY 输 出 队列 中 排队 的 最 大 字 节 数 


BUFOFFSET«-SLMAX-SLBUFSIZE-MCLBYTES 


图 5-11 SLIP 常 量 





5.3.3 SLIP 输入 人 处理: slinput 


TTY 设 备 驱 动 程序 每 次 调用 sl1input、， 都 将 输入 字符 传 给 SLIP 线 路 规程 。 图 5-12 显 示 了 
函数 slinput， 但 跳 过 了 帧 结束 的 处 理 ， 对 于 它 我 们 分 开 讨论 。 
527-545 传递 给 slinput 的 参数 为 : c， 下 一 个 输入 字符 ; tp， 一 个 指向 设备 tty 结 构 的 指 
针 。 全 局 整数 tk_nin 计 算 所 有 TTY 设 备 的 输入 字符 数 。slinput 将 tp->t_sc 转 换 成 sc，sc 
是 指向 一 个 sl1_softc 结 构 的 指针 。 如 果 这 个 TTY 设 备 没有 相关 联 的 接口 ，s1input 立 即 返 回 。 

slinput 的 第 一 个 参数 是 一 个 整数 。 除 了 接收 的 字符 ，c 还 包含 从 TTY 设 备 驱 动 程序 以 
高 位 在 前 的 比特 序 发 送 的 控制 字符 。 如 果 在 c 中 指示 了 一 个 差错 ， 或 调制 解 调 器 控制 线 禁 用 并 
且 不 应 该 被 忽略 ， 则 SC_ERROR 被 置 位 ， 并 且 slinput 返 回 。 之 后 ， 当 s1input 处 理 END 字 
符 时 ， 此 帧 被 丢弃 。 标 志 CLOCAL 指 示 系 统 应 该 把 这 个 线路 视 为 一 个 本 地 线路 ( 即 不 是 一 个 找 
号 线路 )， 并 且 不 应 该 看 到 调制 解 调 器 的 控制 信号 。 
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- if. sl.c 
527 void 
528 slinput(c, tp) 
529 int e 
530 struct tty *tp; 
531 ( 
532 struct sl softc *sc; 
533 struct mbuf *m; 
534 int len; 
535 int 8; 
536 u_char chdr[CHDR LEN]; 
537 tk nin**; 
538 Sc - (struct sl softc *) tp-»t sc; 
539 if (sc == NULL) 
540 return; 
541 if (c & TTY ERRORMASK || ((tp-»t state & TS CARR ON) == 0 && 
542 (tp-»t, cflag & CLOCAL) == 0)) ( 
543 sc-»sc flags |= SC ERROR; 
544 return; 
545 } 
546 C &- TTY_ CHARMASK; 
547 *-SC-»SC if.if ibytes; 
548 switch (c) ( 
549 case TRANS FRAME ESCAPE: 
550 if (sc-»sc, escape) 
551 c = FRAME ESCAPE; 
552 break; 
553 case TRANS, FRAME END: 
554 if (sc-»sc, escape) 
555 C = FRAME END; 
556 break; 
557 case FRAME ESCAPE: 
558 SC-»SC, escape = 1; 
559 return; 
560 case FRAME, END: 

/* FRAME END code (Figure 5.13) */ 

636 ) 
637 if (sc-»sc mp « sc-»sc ep) ( 
638 *SCc-»8C mp«* = cC; 
639 5C-»8SC escape = 0; 
640 return; 
641 ) 
642 /* can't put lower; would miss an extra frame */ 
643 Sc-»sSc flags |= SC, ERROR; 
644 error: 
645 Sc-»Sc if.if ierrors«*; 
646 newpack: 
647 Sc-»sC.mp = sc-»sc buf = sc-»sc ep - SLMAX; 
648 Sc-»-Sc escape = 0; 
E if. sl.c 





图 $-12 函数 slinput 





546-636 
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slinput 丢 弃 c 中 的 控制 比特 ， 并 用 TTY_CHRARMASK 来 屏蔽 掉 ， 更 新 接口 上 接收 
字 节 数 的 计数 ， 同 时 跳 过 接收 到 的 字符 : 
。 如 果 c 是 一 个 转 义 的 ESC 字 符 ， 并 且 前 一 字符 为 ESC， 则 slinput 用 一 个 ESC 字 符 替代 c。 
。 如 果 c 是 一 个 转 义 的 END 字 符 ， 并 且 前 一 字符 为 ESC， 则 slinput 用 一 个 END 字 符 代 赫 c。 
。 如 果 c 是 SLIP ESC 字 符 ， 则 将 sc_escape 置 位 ， 并 且 s1input 立 即 返回 ( 即 ，ESC 字 符 


EEF) 
。 如 果 c 是 SLIP END 字 符 ， 则 将 分 组 放 到 IP 输 入 队列 。 处 理 SLIP 帧 结束 字符 的 代码 显示 在 

图 $-13 中 。 

560 case FRAME END: if slc 

561 if (sc-»sc flags & SC ERROR) ( 

562 SC-»sC flags &= ^SC ERROR; 

563 goto newpack; 

564 } 

565 len = sc-»-sc mp - sc-»sc buf; 

566 if (len « 3) 

567 /* less than min length packet - ignore */ 

568 goto newpack; 

569 if (sc-»sc bpf) ( 

570 /* 

571 * Save the compressed header, so we 

572 * can tack it on later. Note that we 

573 * will end up copying garbage in some 

574 * cases but this is okay. We remember 

575 '* where the buffer started so we can 

576 * compute the new header length. 

577 */ 

578 bcopy (sc-»sc buf, chdr, CHDR LEN); 

579 ) 

580 if ((c - (*sc-»sc buf & Oxf0)) !- (IPVERSION «« 4)) ( 

581 if (c & 0x80) 

582 C - TYPE COMPRESSED TCP; 

583 else if (c -- TYPE UNCOMPRESSED TCP) 

584 *sc-»sc, buf &- Ox4f; /* XXX */ 

585 /[* 

586 * We've got something that's not an IP packet. 

587 * If compression is enabled, try to decompress it. 

588 * Otherwise, if auto-enable compression is on and 

589 * it's a reasonable packet, decompress it and then 

590 * enable compression. Otherwise, drop it. 

591 */ 

592 if (sc-»sc if.if flags & SC COMPRESS) ( 

593 len = sl uncompress tcpí(&sc-»sc buf, len, 

594 (u int) c, &sc-»sc, comp); 

595 if (len <= O0) 

596 goto error; 

597 ) else if ((sc-»sc if.if flags & SC AUTOCOMP) &k 

598 C == TYPE UNCOMPRESSED TCP && len »- 40) ( 

599 len = sl uncompress tcp(&sc-»sc buf, len, 

600 (u int) c, &sc-»sc comp); 

601 if (len <= 0) 

602 goto error; 

603 sc-»sc if.if flags |- SC COMPRESS; 

604 ) else 


图 5-13 函数 slinput: 帧 结束 处 理 
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605 goto error; 

606 } . 

607 if (sc-»sc bpf) ( 

608 /*. 

609 * Put the SLIP pseudo-"link header" in place. 
610 * We couldn't do this any earlier since 
611 * decompression probably moved the buffer 
612 * pointer. Then, invoke BPF. 

613 */ 

614 u_char *hp = sc->sc_buf - SLIP_HDRLEN; 
615 hp[SLX DIR] = SLIPDIR IN; 

616 bcopy(chdr, &hp[SLX CHDR], CHDR LEN); 
617 bpf tap(sc-»sc bpf, hp, len + SLIP HDRLEN); 
618 ) 

619 m = sl btom(sc, len); 

620 if (m == NULL) 

621 goto error; 

622 Ssc-»sc if.if ipackets-**; 

623 sc-»sc if.if lastchange - time; 

624 s = splimp(); 

625 if (IF QFULL(&ipintrq)) ( 

626 IF DROP(&ipintrq); 

627 sc-»sc if.if ierrors**; 

628 Sc-»sc if.if iqdrops-**; 

629 m freem(m); 

630 ) else ( 

: 631 IF ENQUEUE(&ipintrq, m); 

632 Schednetisr(NETISR IP); 

633 H 

634 splx(s); 

635 goto newpack; 


if. sl.c 





图 5-13 ( 续 ) 


通过 这 个 switch 语 句 的 普通 控制 流 会 落 到 switch 外 (这 里 没有 default 情 况 )。 大 多 数字 
节 是 数据 ， 并 且 不 与 这 4 种 情况 中 的 任何 一 种 匹配 。 前 两 个 case 的 控制 也 会 落 到 这 个 switch 外 。 
637-649 如 果 控 制 落 到 switch 外 ， 接 收 的 字符 为 耳 分 组 中 的 一 部 分 。 这 个 字符 被 存储 到 签 
中 (如 果 还 有 空间 )， 指 针 增 加 ，sc_es cape 被 清除 ， 并 且 s1linput 返 回 。 

如 果 簇 满 ， 字 符 被 丢弃 ， 并 且 s1input 设 置 ScC_ERROR。 如 果 镁 满 或 在 处 理 帧 结束 时 检 
测 到 一 个 差错 ， 则 控制 跳 到 error 。 程 序 在 newpack 为 一 个 新 的 分 组 重 设 镁 指针 ， 
sc_escape 被 清除 ， 并 且 s1Linput 返 回 。 

图 5-13 显 示 了 图 5-12 中 跳 过 的 FRAME_END 代 码 。 

560-579 ”如 果 SC_ERROR 被 设置 ， 同 时 正在 接收 分 组 或 如 果 分 组 长 度 小 于 3 字 节 ( 记 住 ， 分 
组 可 能 被 压缩 )， 则 sl1input 立 即 丢弃 此 输入 SLIP 分 组 。 

如 果 SLIP 接 口 带 有 BPF，slinput 在 chdr 数 组 中 保存 这 个 首部 的 一 个 备份 (可 能 被 压 

缩 )。 
580-606 ”通过 检查 分 组 的 第 一 个 字 节 ，s1linput 判 断 它 是 一 个 未 压缩 的 了 瑟 分 组 ， 还 是 一 个 
压缩 的 TCP 分 段 ， 或 者 一 个 未 压缩 的 TCP 分 段 。 类 型 存放 在 c 中 ， 并 且 类 型 信息 从 数据 的 第 一 
个 字 节 中 移 去 (29.13 季 )。 如 果 分 组 以 压缩 形式 出 现 ， 并 且 允 许 压缩 ，s1l_uncompress_tcp 
对 分 组 进行 解压 缩 。 如 果 禁 止 压缩 ， 自 动 允 许 压缩 被 设置 ， 并 且 如 果 分 组 足够 大 ， 则 仍然 调 
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用 sl_uncompress_tcp。 如 果 是 一 个 压缩 的 TCP 分 组 ， 则 设置 压缩 标志 。 

若 分 组 不 被 识别 ，slinput 跳 到 error， 丢 弃 此 分 组 。29.13 节 详细 讨论 了 首部 压缩 技术 。 
现在 簇 中 包含 一 个 完整 的 未 压缩 分 组 。 - 
607-618 SLIP 解 压缩 分 组 后 ， 首 部 和 数据 传 给 BPF。 图 5-14 显 示 了 slinput 构 造 的 缓存 格式 。 


hp[SLX DIR] 








hp[SLX CHDR] 
Sc-»sc buf 


: 未 压缩 的 首部 


未 用 缓存 空间 





| 





. 原 分 组 
I CHDR LEN > | ' (leni: 8) 
| * SLIP HDRLEN > | 


图 5-14 BPF 格 式 的 SLIP 分 组 


BPF 首 部 的 第 一 个 字 节 是 分 组 方向 的 编码 ， 在 此 例 中 是 输入 (SLIPDIR_IN)。 接 下 来 的 15 
字 节 包含 压缩 的 首部 。 整 个 分 组 被 传 给 bpf_tap。 
619-635 s1_btom 将 签 转 换 为 一 个 mbuf 链 表 。 如 果 分 组 足够 小 ,能 放 到 一 个 单独 的 mbuf 中 ， 
sl_btom 就 将 分 组 从 繁复 制 到 一 个 新 分 配 的 mbuf 的 分 组 首部 ; dsl btomHpxA4 ETE 
到 一 个 mbuf， 并 为 这 个 接口 分 配 一 个 新 化。 这 样 比 从 一 个 答复 制 到 另 一 个 铀 要 快 。 我 们 在 本 
书 中 不 显示 s1_btom 的 代码 。 

因为 在 SLIP 接 口上 只 能 传输 IP 分 组 ，s1input 不 必 选 择 协议 队列 (如 以 太 网 驱动 程序 所 
做 )。 分 组 在 ipintrq 中 排队 ， 一 个 IP 软 件 中 断 被 调度 ， 并 且 slinput 跳 到 newpack， 更 新 
竹 的 分 组 指针 ， 并 清除 sc_escape。 


如 果 分 组 不 能 在 ipintrq 上 排队 ，SLIP 驱 动 程序 增加 if_ierrors， 而 在 这 种 
情况 下 ， 以 太 网 或 环 回 驱 动 程序 都 不 增加 这 个 统计 量 。 
即使 在 spltty 调 用 slinput， 访 问 IP 输 入 队列 必须 用 splimp 保 护 。 回 忆 图 1-14， 一 个 
splimp 中 断 能 抢占 spltty 进 程 。 


5.3.4 SLIP 输出 处 理 ; sloutput 


如 所 有 的 网 络 接 口 ， 当 一 个 网 络 层 协 议 调用 接口 的 jf_output 函 数 时 ， 开 始 处 理 输 出 。 对 
于 以 太 网 驱动 程序 ， 此 函数 是 ether_output。 而 对 于 SLIP， 此 函数 是 sloutput( 图 5-15)。 
259-289 sloutput 的 4 个 参数 为 : i fp， 指 向 SLIP ifnet 结 构 ( 在 此 例 中 是 一 个 
s1_softc 结 构 ) 的 指针 ; m， 指 向 排队 等 待 输出 的 分 组 的 指针 ; ast， 分 组 下 一 跳 的 目标 地 
hb; ztp， 指 向 一 个 路 由 表 项 的 指针 。s1loutput 未 用 第 4 个 参数 ， 但 却 是 要 求 的， 因为 
sloutput 必 须 匹 配 在 ifnet 结 构 中 的 if_output 函 数 原 型 。 

sloutput 确 认 ast 是 一 个 了 地址 ， 接 口 被 连接 到 一 个 TTY 设 备 ， 并 且 这 个 TTY 设 备 是 正 
在 运行 的 ( 即 有 载波 信号 ， 或 应 忽略 它 )。 如 果 任 何 检测 失败 ， 则 返回 差错 。 

290-291 SLIP 为 输出 分 组 维护 两 个 队列 。 默 认 选 择 标 准 队列 if_snd。 
292-295 如 果 输 出 分 组 包含 一 个 ICMP 报 文 ， 并 且 接 口 的 SC_NOICMP 被 置 位 ， 则 丢弃 此 分 组 。 
这 防止 一 个 SLIP 链 路 被 一 个 恶意 用 户 发 送 的 无 关 ICMP 分 组 (例如 ECHO 分 组 ) 所 淹没 (第 11 章 )。 
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259 int f slc 
260 sloutput(ifp, m, dst, rtp) 

261 struct ifnet *ifp; 

262 struct mbuf *m; 

263 struct sockaddr *dst; 

264 struct rtentry *rtp; 

265 ( 

266 struct sl softc *sc = &sl softc[ifp-»if unit]; 

267 struct ip *ip; i 

268 struct ifqueue *ifq; 

269 int S; 

270 /* 

271 * Cannot happen (see slioctl). Someday we will extend 
272 * the line protocol to support other address families. 
273 */ 

274 if (dst-»sa family !- AF INET) ( 

275 printf("sl$d: af$d not supportedWn", sc-»sc if.if unit, 
276 dst-»sa family); 

277 m freem(m); 

278 Sc-»sc if.if noproto-**; 

279 return (EAFNOSUPPORT); 

280 ) 

281 if (sc-»sc ttyp == NULL) ( 

282 m freem(ím); 

283 return (ENETDOWN); /* sort of */ 

284 } 

285 if ((sc->sc_ttyp->t_state & TS CARR ON) == 0 && 

286 (sc-»sc ttyp-»t.cflag & CLOCAL) == 0) ( 

287 m freem(m); 

288 return (EHOSTUNREACH); 

289 ) 

290 ifq = &sc-»sc if.if snd; 

291 ip - mtod(m, struct ip *); 

292 if (sc-»sc if.if flags & SC NOICMP && ip-»ip == IPPROTO ICMP) ( 
293 m freemím); 

294 return (ENETRESET); /* XXX ? */ 

295 ) 

296 if (ip-»ip tos & IPTOS LOWDELAY) 

297 ifq = &sc-»sc, fastq; 

298 s - splimp(); 

299 if (IF QFULL(ifq)) ( 

300 IF DROP(ifq); 

301 m freem(m); 

302 Sspix(s); 

303 Sc-»sc if.if oerrors-**; 

304 return (ENOBUFS); 

305 M 

306 IF ENQUEUE(ifq, m); 

307 sc-»sc if.if lastchange = time; 

308 if (sc-»sc ttyp-»t outq.c cc == 0) 

309 Sslstart(sc-»sc ttyp); 

310 spix(s); 

311 return (0); 

32) if. slc 


图 5-15 函数 sloutput 


差错 码 ENETRESET 指 示 分 组 因 决 策 而 被 丢弃 (相对 于 网 络 故 障 )。 我 们 在 第 11 章 会 看 到 除 
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了 在 本 地 产生 一 个 ICMP 报 文 外 ， 此 差错 简单 地 被 忽略 ， 在 这 种 情况 下 ， 一 个 差错 返回 给 发 送 
此 报 文 的 进程 。 
Net/2 在 这 种 情况 返回 一 个 0。 对 于 一 个 诊断 工具 ， 如 ping 或 traceroute，,， 会 
出 现 这 种 情况 : 好 像 这 个 分 组 消失 了 ， 因 为 输出 操作 会 报告 成 功 完成 。 
通常 ，ICMP 报 文 可 以 被 丢弃 。 对 于 正确 的 操作 ， 它 们 并 不 必要 ， 但 丢弃 它们 会 
造成 更 多 的 麻烦 ， 可 能 导致 不 佳 的 路 由 决定 和 较 差 的 性 能 ， 并 且 会 浪费 网 络 资源 。 
296-297 如 果 在 输出 分 组 的 TOS 字 段 指 明 低 时 延 服务 (IPTOS_LOWDELAY)， 则 输出 队列 改 
为 sc_fasta。 
RFC 1700 和 RFC 1349 [Almquist 1992] 规 定 了 标准 协议 的 TOS 设 置 。 为 Telnet、 
Rlogin, FTP(424$]), TFTP, SMTP(4 4 Fr.) fe DNS(UDP & i$j)48 9] T 4&8 35 JR 5 
更 多 细节 见 卷 1 的 3.2 节 。 
在 以 前 的 BSD 版 本 中 ， 记 _tos 不 由 应 用 程序 设置 。SLIP 驱 动 程 序 通过 检查 在 IP 分 
组 中 的 传输 首部 来 实现 TOS 排 队 。 如 果 发 现 FTP( 命 令 )、Telnet 或 Rlogin 端 口 的 TCP 分 
组 ， 分 组 就 如 指明 了 IPTOS_LOWDELAY 一 样 被 排队 。 很 多 路 由 器 仍然 这 样 ， 因 为 很 
多 这 些 交 互 服务 的 实现 仍然 不 设置 jp_tos。 
298-312 现在 分 组 被 放 到 所 选择 的 队列 中 ， 接 口 统计 被 更 新 ， 并 且 ( 如 果 TTY 输 出 队列 为 
空 ) sloutput 调 用 slstart 来 发 起 对 此 分 组 的 传输 。 
如 果 接 口 队 列 满 ， 则 SLIP 增 加 if_oerrors; 而 对 于 ether_output， 则 不 是 
不 像 以 太 网 输出 负数 (ether_output)，sloutput 不 为 输出 分 组 构造 一 个 数据 链 路 首 
部 。 因 为 在 SLPP 网 络 上 的 另 一 系统 在 串 行 链 路 的 另 一 端 ， 所 以 不 需要 硬件 地 址 或 一 个 协议 (如 
ARP) 在 下 地 址 和 硬件 地 址 闻 进 行 转换 。 协 议 标 识 符 ( 如 以 太 网 类 型 字段 } 也 是 多 余 的 ， 因 为 一 
个 SLIP 链 路 仅 承载 IP 分 组 。 


5.3.5 slstart 函 数 


除了 被 sloutput 调 用 外 ， 当 TTY 取 完 它 的 输出 队列 并 要 传输 更 多 的 字 节 时 ，TTY 设 备 
调用 slstart。TTY 子 系统 通过 一 个 cl1ist 结 构 管 理 它 的 队列 。 在 图 3-8 中 ， 输 出 clist 
t_outq 显 示 在 slstart 下 面 和 设备 的 t_oproc 函 数 的 上 面 .。 slstart 把 字 节 添加 到 队列 中 ， 
而 t_oproc 将 队列 取 完 并 传输 这 些 字 节 。 

函数 slstart 显 示 在 图 5-16 中 。 

318-358 当 slstart 挡 数 被 调用 时 ，tp 指 向 设备 的 tty 结 构 。slstart 的 主体 由 一 个 for 
循环 构成 。 如 果 输 出 队列 t_outq 不 空 ，s1start 调 用 设备 的 输出 函数 c_oproc， 此 函数 传 
输 设备 所 能 接收 的 字 节 数 。 如 果 TTY 输 出 队列 中 剩余 的 字 节 超过 100 字 节 (SLIP. HIWAT), 
则 slistart 返 回 而 不 是 将 另 一 分 组 的 字 节 添加 到 队列 中 。 当 传输 完 所 有 字 节 ， 输 出 设备 产生 
一 个 中 断 ， 并 且 当 输出 列表 为 空 时 ，TTY 子 系统 调用 slstart、。 

如 果 TTY 输 出 队列 为 空 ， 则 一 个 分 组 从 sc_fastq 中 退 队 ， 或 者 ， 若 sc_fastq 为 空 ， 则 
从 if_snd 队 列 中 人 退 队 ， 这 样 在 其 他 分 组 前 传输 所 有 交互 的 分 组 。 
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没有 标准 的 SNMP 变 量 来 统计 根据 TOS 字 段 排队 的 分 组 。 在 353 行 的 XXX 注释 表 
示 SLIP 驱 动 程序 在 if_omcasts 中 统计 低 时 延 分 组 数 ， 而 不 是 多 播 分 组 数 。 


359-383 如 果 SLIP 接 口 带 有 BPF，slstart 在 任何 首部 压缩 前 为 输出 分 组 产生 一 个 备份 。 
这 个 备份 存储 在 bpfibuf 数 组 的 栈 中 。 
384-388 如果 人 允许 压缩 ， 并 且 分 组 包含 一 个 TCP 报 文 段 ， 则 sloutput 调 用 s1_ 
compress_tcp 来 压缩 这 个 分 组 。 得 到 的 分 组 类 型 被 返回 ， 并 与 P 首 部 的 第 一 个 字 节 (29.13 
节 ) 进 行 逻 辑 或 运算 。 
389-398 压缩 的 首部 现在 复制 到 BPF 首 部 ， 并 且 方 向 标记 为 SLIPDIR_OUT。 完 整 的 BPF 分 
组 传 给 bpf_tap。 
483-484 如 果 for 循 环 终止 ， 则 sLstart 返 回 。 

318 void -slc 


319 slstart (tp) 
320 struct tty *tp; 


321 ( 

322 struct sl softc *sc = (struct sl softc *) tp-»t sc; 
323 struct mbuf *m; 

324 u char *cp; 

325 struct ip *ip; 

326 int 8; 

327 struct mbuf *m2; 

328 u_char bpfbuf[SLMTU + SLIP HDRLEN); 

329 int len; 

330 extern int cfreecount; 

331 for (;;) í 

332 /* 

333 * If there is more in the output queue, just send it now. 
334 * We are being called in lieu of ttstart and must do what 
335 * it would. 

336 */ . 

337 if (tp-»t outq.c cc != 0) ( 

338 (*tp-»t oproc) (tp): 

339 if (tp-»t outq.c cc » SLIP HIWAT) 

340 return; 

341 } 

342 /* 

343 * This happens briefly when the line shuts down. 
344 */ 

345 if (sc == NULL) 

346 return; 

347 /* 

348 * Get a packet and send it to the interface. 
349 */ 

350 s = splimp(); 

351 IF, DEQUEUE (&sc-»sc fastq, m); 

352 if (m) 

353 Sc-»sc if.if omcasts**; /* XXX */ 

354 else 

355 IF DEQUEUE(&SC-»SC if.if snd, m); 

356 spix(s); 

357 if (m == NULL) 

358 return; 


图 5-16 函数 slstart: 分 组 退 队 
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359 /* 

360 * We do the header compression here rather than in sloutput 
361 * because the packets will be out of order if we are using TOS 
362 * queueing, and the connection id compression will get 
363 * munged when this happens. 

364 */ 

365 if (sc-»sc bpf) ( 

366 /* 

367 * We need to save the TCP/IP header before it's 

368 * compressed. To avoid complicated code, we just 
369 * copy the entire packet into a stack buffer (since 
370 * this is a serial line, packets should be short 
371 * and/or the copy should be negligible cost compared 
372 * to the packet transmission time). 

373 */ 

374 struct mbuf *ml = m; 

375 u_char *cp = bpfbuf + SLIP HDRLEN; 

376 len = 0; 

377 do ( 

378 int mlen = ml-»m len; 

379 bcopy (mtod (ml, caddr t), cp, mlen); 

380 Cp += mlen; 

381 len += mlen; 

382 ) while (ml = mi1-»m next); 

383 ) 

384 if ((ip = mtod(m, struct ip *))-»ip p == IPPROTO TCP) ( 
385 if (sc-»-sc if.if flags & SC COMPRESS) 

386 *mtod(m, u_char *) l= sl compress tcp(m, ip, 

387 &sC-»8C comp, 1); 
388 } 

389 if (sc-»sc bpf) { 

390 /* 

391 * Put the SLIP pseudo-"link header" in place. The 
392 * compressed header is now at the beginning of the 
393 * mbuf. 

394 */ 

395 bpfbuf[SLX DIR] = SLIPDIR OUT; 

396 bcopy (mtod(m, caddr t), &bpfbuf[SLX CHDR], CHDR LEN); 
397 bpf tap(sc-»sc bpf, bpfbuf, len + SLIP HDRLEN); 

398 ) 

483 } 

484 ) 


if. slc 





图 5-16 (55) 


slstart 的 下 一 部 分 (图 5-17) 在 系统 存储 器 容量 不 足 时 丢弃 分 组 ， 并 且 采 用 一 种 简单 的 
技术 来 委 弃 由 于 串 行 线 上 的 噪声 产生 的 数据 。 这 些 代码 在 图 5-16 中 忽略 了 。 
399-409 如 果 系 统 缺少 clist 结 构 ， 则 分 级 被 丢弃 ， 并 且 作 为 一 个 冲突 被 统计 。 通 过 不 断 地 
循环 而 不 是 返回 ，s1start 快 速 地 丢弃 所 有 剩余 的 排队 输出 的 分 组 。 由 于 设备 仍然 有 太 多 字 
节 为 输出 排队 ， 每 次 迭代 都 要 丢弃 一 个 分 组 。 高 层 协议 必须 检测 丢失 的 分 组 并 重 传 它们 。 
410-418 如 果 TTY 输 出 队列 为 空 ， 则 通信 线路 可 能 有 一 段 时 间 空 亲 ， 并 且 接 收 方 在 另 一 端 
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可 能 接收 了 线路 噪声 产生 的 无 关 数 据 。slstart 在 输出 队列 中 放置 一 个 额外 的 SLIP ENDE 
符 。 一 个 长 度 为 0 的 帧 或 一 个 由 线路 噪声 产生 的 帧 应 该 被 接收 方 SLIP 接 口 或 耻 协 议 丢弃 。 


一 一 - if. s.c 
399 Sc-»sc if.if lastchange = time; 
400 /* 
401 * If system is getting low on clists, just flush our 
402 * output queue (if the stuff was important, it'll get 
403 * retransmitted). 
404 */ 
405 if (cfreecount < CLISTRESERVE + SLMTU) ( 
406 I, freem (m); 
407 Sc-»sc if.if collisions-«4*; 
408 continue; 
409 } 
410 /* 
411 * The extra FRAME END will start up a new packet, and thus 
412 * will flush any accumulated garbage. We do this whenever 
413 * the line may have been idle for some time. 
414 */ 
415 if (tp-»t outq.c cc == 0) ( 
416 -*sc-»sc if.if obytes; 
417 (void) putc(FRAME END, &tp-»t outq); 
418 ) if slc 


图 5-17 函数 slstart: 资源 缺乏 和 线路 噪声 
图 5$-18 说 明了 这 个 丢弃 线路 噪声 的 技术 ， 它 来 源 于 由 Phil Karn 撰 写 的 RFC 1055。 在 图 5- 
18 中 ， 传 输 第 二 个 帧 结束 符 O[END)， 因 为 线路 空 亲 了 一 段 时 间 。 由 噪声 产生 的 无 效 帧 和 这 个 
END 字 : 节 被 接收 系统 丢弃 。 


I—4— ^ 尼 一 空闲 一 | 三 89S 

au P 

-一 一 ly 一 a I —— OW 一 一 
图 5-18 Kam 的 丢弃 SLIPP 线 路 噪声 的 方法 
在 图 5-19 中 ， 线 路 上 没有 噪声 并 且 0 长 度 帧 被 接收 系统 丢弃 。 


一 空间 一 ”| 额外 的 


| 
| v 3 | 
Ok) (OK) 
W 2 
(EFH) 
”图 5-19 无 噪声 的 Karn 方 法 


slstart 的 下 一 部 分 (图 5-20) 将 数据 从 一 个 mbuf 传 给 TTY 设 备 的 输出 队列 。 
419-467 在 这 部 分 的 外 部 while 循 环 对 链表 中 的 每 个 mbuf 执 行 一 次 。 中 间 的 while 循 环 将 
数据 从 每 个 mbuf 传 给 输出 设备 。 内 部 的 whi1e 循 环 不 断 递增 tcp， 直到 它 找 到 一 个 END 或 ESC 
字符 。b_to_q 传 输 bp 到 cp 之 间 的 数据 。END 和 ESC 字 符 被 转 义 ， 并 且 两 次 通过 调用 putc 放 
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入 队列 。 中 间 的 循环 直到 mbuf 的 所 有 字 节 都 传 给 TTY 设 备 输出 队列 才 停 止 。 图 5-21 说 明了 对 
包含 了 一 个 SLIP END 字 符 和 一 个 SLIP ESC 字 符 的 mbuf 的 处 理 。 
bp 标记 用 b_to_qa 传 输 的 mbuf 的 第 一 部 分 的 开始 ，cp 标 记 这 个 部 分 的 结束 。ep 标 记 这 个 








mbuf 中 数据 的 结束 位 置 。 
419 while (m) { fse 
420 u_char *ep; 
421 cp = mtod(m, u_char *); 
422 ep = cp + m->m_len; 
423 while (cp < ep) ( 
424 /* 
425 * Find out how many bytes in the string we can 
426 * handle without doing something special. 
427 */ 
428 u char *bp - Cp; 
429 while (cp « ep) ( 
430 switch (*cp*s4) ( 
431 case FRAME ESCAPE: 
432 case FRAME END: 
433 --Cp:; 
434 goto out; 
435 } 
436 ) 
437 out: 
438 if (cp » bp) ( 
439 /* 
440 * Put n characters at once 
441 * into the tty output queue. 
442 */ 
443 if (b to q((char *) bp, cp - bp, 
444 &tp-»t outq)) 
445 break; 
446 . sc-»sc if.if obytes += cp - bp; 
447 ) 
448 /* 
449 * If there are characters left in the mbuf, 
450 * the first one must be special.. 
451 * Put it out in a different form. 
452 */ 
453 if (cp < ep) ( 
454 if (putc(FRAME ESCAPE, &tp-»t outq)) 
455 break; 
456 if (putc(*cp++ == FRAME ESCAPE ? 
457 TRANS FRAME, ESCAPE : TRANS, FRAME END, 
458 &tp-»t outq)) ( 
459 (void) unputc(&tp-»t outq); 
460 break; 
461 } 
462 sc->sc_if.if_obytes += 2; 
463 } 
464 ) 
465 MFREE (m, m2); 
466 m - m2; 
467 if_sl.c 


图 5-20 ”函数 slstart: 传输 分 组 
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wn 

第 一 次 调用 b__to_q 第 二 次 调用 b_to_q 第 三 次 调用 b_to_q 
putc(FRAME ESCAPE, ...) putc(FRAME ESCAPE, ...) 

putc(TRANS FRAME END, ...) putc(TRANS FRAME ESCAPE, ...) 


图 5-21 单个 mbuf 的 SLIP 传 输 


如 果 b_te_q 或 putc 失 败 ( 即 ， 数 据 不 能 在 TTY 设 备 排队 )， 则 break 导 致 slstart 退 出 
内 部 while 循 环 。 这 种 失败 表示 内 核 clist 资 源 用 完 。 在 每 个 nbuf 被 复制 到 TTY 设 备 后 ， 或 者 
当 一 个 差错 发 生 时 ，mbuf 被 释放 ，m 增 加 到 链表 的 下 一 个 mbuf， 并 且 外 部 whi1e 循 环 继续 执 
行 直到 链表 中 所 有 mbuf 被 处 理 。 

图 5-22 显 示 了 slstart 完 成 输出 帧 的 处 理 。 


- if_sl.c 
468 if (putc(FRAME END, &tp-»t outq)) ( 
469 /* 
470 * Not enough room. Remove a char to make room 
471 * and end the packet normally. 
472 * If you get many collisions (more than one or two 
473 * a day) you probably do not have enough clists 
474 * and you should increase "nclist" in param.c. 
475 */ 
476 (void) unputc(&tp-»t, outq); 
477 (void) putc(FRAME END, &tp-»t outq); 
478 Sc-»sc if.if collisions«-«; 
479 ) else ( 
480 -«Sc-»Sc if.if obytes; 
481 Sc-»sc if.if opackets-e*; 
482 ) - 

if slc 


图 5-22 函数 slstart: 帧 结束 处 理 


468-482 当 外 部 while 循 环 处 理 完 对 输出 队列 中 的 字 节 排队 时 ， 控 制 到 达 这 段 代 码 。 驱 动 
程序 发 送 一 个 SLIP END 字 符 ， 来 终止 这 个 帧 。 

如 果 这 些 字 节 在 排队 时 发 生 差错 ， 则 输出 帧 无 效 ， 并 会 因为 “无 效 的 检验 和 ”或 “无 效 
的 长 度 ” 被 接收 系统 检测 出 来 。 

无 论 这 个 帧 是 不 是 因为 一 个 差错 而 终止 ， 如 果 END 字 符 设 有 填充 到 输出 队列 中 ， 队 列 的 
最 后 一 个 字符 就 要 被 丢弃 ， 并 且 slstart 将 使 这 个 帧 结束 。 这 保证 传输 了 一 个 END 字 符 。 这 
个 无 效 帧 在 目标 站 被 丢弃 。 
5.3.6 ”SLIP 分 组 天 失 

SLIP 接 口 提供 了 一 个 尽 最 大 努力 服务 的 好 例子 。 如 果 TTY 超 载 ， 则 SLIP 丢 弃 分 组 ;在 分 
组 开始 传输 后 ， 如 果 资 源 不 可 用 ， 则 它 截断 分 组 ， 并 且 为 了 检测 和 丢弃 线路 噪声 插入 无 关 的 
空 分 组 。 对 以 上 的 每 一 种 情况 都 不 产生 差错 报 文 。SLIP 依 靠 IP 层 和 运输 层 来 检测 损坏 的 和 于 
失 的 分 组 。 
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在 一 个 路 由 器 上 从 一 个 高 速 接口 例如 以 太 网 ， 发 送 帧 到 一 个 低速 的 SLIP 线 路 上 。 如 果 发 


送 方 不 


能 意识 到 瓶颈 并 相应 调节 数据 速率 ， 则 会 有 大 比例 的 分 组 被 丢弃 。 在 25.11 节 我 们 会 看 


到 TCP 是 如 何 检 测 并 对 此 响应 的 。 应 用 程序 使 用 一 个 无 流量 控制 的 协议 ， 如 UDP， 必 须 自己 
识别 和 响应 这 种 情况 (习题 5.8)。 


5.3.7 


SLiP 性 能 考虑 


一 个 SLIP 帧 的 MTU(SLMTU) 、clist 高 水 位 标记 (high-water mark)(SLIP_HIWAT) 和 SLIP 的 
TOS 排 队 策略 都 是 用 来 设计 交互 通信 的 低速 串 行 链 ， 使 得 固有 的 时 延 最 小 。 


1) 


2) 


3) 


一 个 小 的 MTU 能 够 改进 交互 数据 的 时 延 ( 如 敲 键 和 回 显 )， 但 有 损 批量 数据 传输 的 吞吐 
量 。-- 个 大 的 MTU 能 改进 批量 数据 的 吞吐 量 ， 但 增加 了 交互 时 延 。SLIP 链 路 的 另 一 个 
问题 是 键入 一 个 字符 就 要 有 40 字 节 的 开销 来 写 和 TCP 首部 和 IP 首 部 的 信息 ， 这 就 增加 
了 通信 和 的 时 延 。 

解决 办 法 是 挑选 一 个 足够 大 的 MTU 来 提供 好 的 交互 响应 时 间 和 适当 的 批量 数据 吞吐 
量 ， 并 压缩 TCP/IP 首 部 来 减 小 每 个 分 组 的 负荷 。RFC 1144 [Jacobson 1990a] 描 述 了 一 
个 压缩 方案 和 时 间 计 算 ， 它 为 一 个 典型 的 9600 b/s 异步 SLIP 链 路 选择 了 一 个 数值 为 296 
的 MTU。 我 们 在 29.13 节 讨论 压缩 的 SLIP(CSLIP)。 卷 1 的 2.10 节 和 7.2 节 总 结 了 这 种 定 
时 考虑 ， 并 说 明了 在 SLIP 链 路 上 的 时 延 。 

如 果 有 太 多 的 字 节 缓存 在 clist 中 (因为 SLIP_HIWAT 设 置 得 太 高 ), TOS 排 队 会 受到 阻碍 ， 
因为 新 的 交互 式 通信 等 在 大 量 缓存 数据 的 后 面 。 如 果 SLIP 一 次 传 给 TTY 驱 动 程序 一 个 
字 节 (因为 SLIP_HIWAT 设 置 得 太 低 )， 设 备 为 每 个 字 节 调用 slstart， 并 在 每 个 字 节 
传输 后 线路 空闲 一 段 时 间 。 把 SLIP_HIWAT 设 置 为 100 可 使 在 设备 排队 的 数据 量 最 小 化 ， 
并 且 减 小 了 TTY 子 系统 调用 slstart 的 频率 ， 大 约 每 100 字 符 必须 调用 slstart 一 次 。 
如 前 所 述 ，SLIP 驱 动 程序 提供 了 TOS 排 队 ， 其 策略 是 先 从 sc_fastq 队 列 中 发 送 交 互 
式 通信 数据 ， 然 后 在 标准 接口 队列 i£f_snd 中 发 送 其 他 的 通信 数据 。 


5.3.8 slclose 函 数 
为 了 完整 性 ， 我 们 显示 函数 slclose。 当 slattach 程 序 关 闭 SLIP 的 TTY 设 备 ， 并 且 中 
断 对 远程 系统 的 连接 时 ， 调 用 它 。 
if slc 

210 void f- 

211 slclose(tp) 

212 struct tty *tp; 

213 ( 

214 struct sl softc *sc; 

215 int S; 

216 ttywflush(tp); 

217 s - splimp(); /* actually, max(spltty, splnet) */ 

218 tp-»t line = 0; 

219 SC - (struct sl softc *) tp-»t sc; 

220 if (sc !z NULL) ( 

221 if down(&sc-»sc if); 

222 Sc-»sSc ttyp = NULL; 


223 


tp->t_sc = NULL; 
图 5-23 图 数 s1close 
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224 MCLFREE((caddr t) (sc-»sc ep - SLBUFSIZE)); 
225 Sc-»sc ep = 0; 
226 Sc-»sc mp = 0; 
227 sc-»sc buf = 0; 
228 } 
229 splx(s); 
230 ) 
if. s.c 
图 $-23 (f$) 


210-230 tp 指向 要 关闭 的 TTY 设 备 。s1c1lose 清 除 任何 残留 在 串 行 设 备 中 的 数据 ， 中 断 
TTY 和 网 络 处 理 ， 并 且 将 TTY 复 位 到 默认 的 线路 规程 。 如 果 TTY 设 备 被 连接 到 一 个 SLIP 接 口 ， 
则 关闭 这 个 接口 ， 在 这 两 个 结构 间 的 链接 被 切断 ， 与 此 接口 关联 的 mbuf 钞 被 释放 ， 并 且 指 向 
现在 被 丢弃 的 簇 的 指针 被 复位 。 最 后 ，sP1x 重 新 允许 TTY 中 断 和 网 络 中 断 。 


5.3.9 s1tioctlfif 


回忆 一 下 ，SLIP 在 内 核 中 有 两 种 作用 : 

。 作 为 一 个 网 络 接 口 ; 

。 作 为 一 个 TTY 线 路 规程 。 

图 5-7 显 示 了 slioct1 处 理 通过 一 个 插口 描述 符 发 送 给 一 个 SLIP 接 口 的 ioct1l 命 令 。 在 
4.4 节 中 ， 我 们 显示 了 ifioct1 是 如 何 调用 siioct1 的 。 我 们 会 看 到 一 个 处 理 ioct1 命 令 的 
相似 模型 ， 并 且 在 后 面 的 章节 中 会 讨论 到 。 

图 5-7 还 表示 了 sltioct1l1 处 理发 送 给 与 一 个 SLIP 网 络 接口 关联 的 TTY 设 备 的 joct1 命 
令 。 这 个 被 sltioct1li 识 别 的 命令 显示 在 图 5-24 中 。 


ee eee 


图 5-24 sltioct1 命 令 


图 数 sLtioct1 显 示 在 图 $-25 中 。 























if slc 
236 int 

237 sltioctl(tp, cmd, data, flag) 

238 struct tty *tp; 


239 int cmd; 

240 caddr t data; 

241 int flag; 

242 ( 

243 struct sl softc *sc = (struct sl softc *) tp-»t sc; 
244 switch (cmd) ( 

245 case SLIOCGUNIT: 

246 *(int *) data - sc-»sc if.if unit; 
247 break; ` 

248 default: 

249 return (-1); 

250 ) 

251 return (0); 

252 ) 


392 3L MM if sc 


图 5-25 mi" sltioctl 
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236-252 上 ty 结构 的 ft _sc 指 针 指向 关联 的 s1_softc 结 构 。 这 个 SLIP 接 口 的 设备 号 从 
if_unit 被 复制 到 *dqata， 它 最 后 返回 给 进程 (17.5 节 )。 

当 系 统 被 初始 化 时 ，s1L1attach 初 始 化 if_unit， 并 且 当 slLattach 程 序 为 此 TTY 设 备 
选择 SLIP 线 路 规程 时 ，s lopen 初 始 化 t_sc。 因 为 一 个 TTY 设 备 和 一 个 SLIP s1_softc 结 构 
间 的 关系 是 在 运行 时 建立 的 ， 一 个 进程 能 通过 SLIOCGUNIT 命 令 发 现 所 选择 的 接口 结构 。 


9.4 MERA 
任何 发 送 给 环 回 接口 (图 5-26) 的 分 组 立即 排 入 输入 队列 。 接 品 完 全 用 软件 实现 。 


if_output 
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图 5-26 环 回 设备 驱动 程序 


环 回 接口 的 1f_output 指 向 的 函数 1ooutput， 将 输出 分 组 放置 到 分 组 的 目的 地 址 指明 
的 协议 的 输入 队列 中 。 

我 们 已 经 看 到 当 设 备 被 设置 为 ITFF_SIMPLEX 时 ，ether_output 会 调用 lcooutput 来 
排队 一 个 输出 广播 分 组 。 在 第 12 章 中 ， 我 们 会 看 到 多 播 分 组 也 可 能 以 这 种 方式 环 回 。 
looutput 显 示 在 图 5-27 中 。 


57 int 

58 looutput(ifp, m, dst, rt) 
59 struct ifnet *ifp; 

60 struct mbuf *m; 

61 struct sockaddr *dst; 

62 struct rtentry *rt; 





if.loop.c 


63 ( 

64 int s, isr; 

65 struct ifqueue *ifq - 0; 

66 if ((m-»-m flags & M PKTHDR) == O0) 

67 panic("looutput no HDR"); 

68 ifp-»-if lastchange = time; 

69 if (loif.if bpf) ( 

70 /* 

71 * We need to prepend the address family as 
72 * a four byte field. Cons up a dunimy header 
73 * to pacify bpf. This is safe because bpf 
74 * will only read from the mbuf (i.e., it won't 
75 * try to free it or keep a pointer a to it). 
76 */ 


图 5-27 iE looutput 
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77 struct mbuf m0; 
78 u int af = dst-»sa, family; 
79 m0.m next - m; 
80 m0.m len - 4; 
81 m0.m data = (char *) &af; 
82 bpf mtap(loif.if bpf, &m0); * 
83 ) 
84 m-»m pkthdr.rcvif = ifp; 
85 if (rt && rt-»rt, flags & (RTF REJECT | RTF BLACKHOLE)) ( 
86 m freem(m); 
87 return (rt-»rt flags & RTF, BLACKHOLE ? 0 : 
88 rt-»rt flags & RTF. HOST ? EHOSTUNREACH : ENETUNREACH); 
89 ) 
90 ifp-»if opackets-**; 
91 ifp-»if obytes += m-»m pkthdr.len; 
92 switch (dst-»sa family) ( 
93 case AF INET: 
94 ifq = &ipintrq; 
95 isr = NETISR IP; 
96 break; 
97 case AF ISO: 
98 ifq = &clnlintrq; 
99 isr - NETISR ISO; 
100 break; 
101 default: 
102 printf ("lo%d: can't handle af&dWn", ifp-»if unit, 
103 dst-»sa family); 
104 m freemím); 
105 return (EAFNOSUPPORT); 
106 ) 
107 s = Splimp(); 
108 if (IF QFULL(ifq)) ( 
109 IF DROP(ifq); 
110 m freem(m); 
111 spix(s); 
112 return (ENOBUFS); 
113 } 
114 IF. ENQUEUE (ifq, m); 
115 Schednetisr(isr); 
116 ifp-»if ipackets*-; 
117 ifp-»if ibytes += m-»m pkthdr.len; 
118 splx(s); 
119 return (0); 
120 ) if loop.c 
图 5-27 (89) 
57-66 looutput 的 参数 同 ether_output 一 样 ， 因为 都 是 通过 它们 的 ifnet 结 构 中 的 


if_output 指 针 直接 调用 的 。ifp， 指 向 输出 接口 的 fnet 结 构 的 指针 ; m， 要 发 送 的 分 
id; dst， 分 组 的 目的 地 址 ; rt， 路 由 信息 。 如 果 链 表 中 的 第 一 个 mbuf 不 包含 一 个 分 组 ， 


looutput 调 用 panic。 
图 5-28 所 示 的 是 一 个 BPF 环 回 分 组 的 逻辑 格式 。 


69-83 


驱动 程序 在 堆栈 上 的 m0 中 构造 BPF 环 回 分 组 ， 并 且 把 m0 连接 到 包含 原始 分 组 的 mbuf 
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链表 中 。 注 意 m0 的 声明 不 同 往 常 。 它 是 一 个 nbuf， 而 不 是 一 个 mbuf 指 针 。m0 的 m_data 指 向 
af， 它 也 分 配 在 这 个 堆栈 中 。 图 $-29 显 示 了 这 种 安排 。 


WEBER 原 分 组 


4c 





图 5-28 BPF 环 回 分 组 : 逻辑 格式 





由 looutput 在 内 核 mbuf 
在 栈 上 分 配 池 中 分 配 
图 5-29 BPF 环 回 分 组 : mbuf 格 式 


looutput 将 目的 地 址 族 复制 到 af， 并 且 将 新 mbuf 链 表 传 递 给 bppf_mtap， 去 处 理 这 个 分 
组 .与 ppf_tap 相 比 ， 它 在 一 个 单独 的 连续 缓存 中 接收 这 个 分 组 而 不 是 在 一 个 mbuf 链 表 中 。 
如 图 中 注释 所 示 ，BPF 从 来 不 释放 一 个 链表 中 的 mbuf， 因 此 将 m0 ( 它 指向 栈 中 的 一 个 mbuf) 传 
给 bpf_mtap 是 安全 的 。 
84-89 looutput 剩 下 的 代码 包含 input 对 此 分 组 的 处 理 。 虽 然 这 是 一 个 输出 函数 ， 但 分 组 
被 环 回 到 输入 。 首 先 ，m- >m_pkthdar.rcvif 设 置 为 指向 接收 接口 。 如 果 调 用 方 提供 一 个 路 
由 项 ，1ooutput 检 查 是 否 它 指示 此 分 组 应 该 被 拒绝 (RTF_REJECT) 或 直接 被 丢弃 
(RTF_BLACKHOLE)。 通 过 丢弃 mbuf 并 返回 0 来 实现 一 个 黑洞 。 从 调用 者 看 来 就 好 像 分 组 已 经 
被 传输 了 。 要 拒绝 一 个 分 组 ， 如 果 路 由 是 一 个 主机 ， 则 looutput 返 回 EHOSTUNREACH; 如 
果 路 由 是 一 个 网 络 则 返回 ENETUNREACH。 


各 种 RTF_xxx 标 志 在 图 18-25 中 描述 。 


90-120 ”然后 looutput 通 过 检查 分 组 目的 地 址 中 的 sa_fami ly 来 选择 合适 的 协议 输入 队 
列 和 软件 中 断 。 接 着 把 识别 的 分 组 进行 排队 ， 并 用 schednetisr 来 调度 一 个 软件 中 断 。 


5.5 小 结 


我 们 讨论 了 两 个 剩 下 的 接口 ， 它 们 在 书 中 多 次 引用 : s10， 一 个 SLIP 接 口 ; 1o0， 标 准 的 
环 回 接口 。 

我 们 显示 了 在 SLIP 接 口 和 SLIP 线 路 规程 之 间 的 关系 ， 讨 论 了 SLIP 封 装 方法 ， 并 且 讨 论 了 
TOS 处 理 交 互 式 通信 和 SLIP 驱 动 程序 的 其 他 性 能 考虑 。 

我 们 显示 了 环 回 接口 是 如 何 按 目 的 地 址 分 用 输出 分 组 及 将 分 组 放 到 相应 的 输入 队列 中 
去 。 | 
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为 什么 环 回 接口 没有 输入 函数 ? 

你 认为 为 什么 图 5-27 中 的 m0 要 分 配 在 堆栈 中 ? 

分 析 一 个 19 200 b/s 的 品行 线 的 SLIP 特 性 。 对 于 这 个 线路 ，SLIP MTU 应 该 改变 吗 ? 
导出 一 个 根据 串 行 线 速率 选择 SLIP MTU 的 公式 。 

如 果 一 个 分 组 对 于 SLIP 输 入 缓存 太 大 ， 会 发 生 什 么 情况 ? 

一 个 slinput 的 早期 版 本 ， 当 一 个 分 组 在 输入 缓存 溢出 时 ， 不 将 SC_ERROR 置 位 。 
在 这 种 情况 下 如 何 检测 这 种 差错 ? 

在 图 4-31 中 le 被 下 标 为 fp->if_unit 的 1e_softc 数 组 项 初始 化 。 你 能 想 出 另 一 
种 初始 化 le 的 方法 吗 ? 

当 分 组 因为 网 络 瓶 颈 被 丢弃 时 ， 一 个 UDP 应 用 程序 如 何 知 道 ? 


第 6 章 IP jm 址 


6.1 引言 


本 章 讨 论 NeV3 如 何 管理 耳 地 址 信息 。 我 们 从 in_ifadar 和 sockaddr_in 结 构 开始 ， 它 
们 基于 通用 的 i1faddr 和 sockaddr 结 构 。 
本 章 其 余部 分 讨论 耳 地 址 的 指派 和 几 个 查询 接口 数据 结构 与 维护 耻 地 址 的 实用 函数 。 


6.1.1 IP 地 址 


虽然 我 们 假设 读者 熟悉 基本 的 Internet 编 址 系统 ， 仍 然 有 几 点 值得 指出 。 

在 IP 模 型 中 ， 地 址 是 指派 给 一 个 系统 (一 个 主机 或 路 由 器 ) 中 的 网 络 接 口 而 不 是 系统 本 身 。 
在 系统 有 多 个 接口 的 情况 下 ， 系 统 有 多 重 初始 地 址 ， 并 有 多 个 瑟 地 址 。 一 个 路 由 器 被 定义 为 
有 多 重 初始 地 址 。 如 我 们 所 看 到 的 ， 这 个 体系 特点 有 几 个 小 分 支 。 

IP 地 址 定义 了 5 类 。A、B 和 C 类 地 址 支持 单 播 通信 。D 类 地 址 支持 了 多 播 。 在 一 个 多 播 通 
信 中 ， 一 个 单独 的 源 方 发 送 一 个 数据 报 给 多 个 目标 方 。D 类 地 址 和 多 播 协议 在 第 12 章 说 明 。E 
类 地 址 是 试验 用 的 。 接 收 的 E 类 地 址 分 组 被 不 参与 试验 的 主机 丢弃 。 

我 们 强调 IP 多 播 和 硬件 多 播 间 的 区 别 是 重要 的 。 硬 件 多 播 的 特点 是 数据 链 路 硬件 用 来 将 帧 
传输 给 多 个 硬件 接口 。 有 些 网 络 硬件 ， 如 以 太 网 ， 支 持 数据 链 路 多 播 。 其 他 硬件 可 能 不 支持 。 

IP 多 播 是 一 个 在 IP 系 统 内 实现 的 软件 特性 ， 将 分 组 传输 给 多 个 可 能 在 Internet 中 任何 位 置 
的 IP 地 址 。 

我 们 假设 读者 熟悉 下 网 络 的 子 网 划分 (REFC 950 [Mogul and Postel 1985] 和 卷 1 的 第 3 章 )。 
我 们 会 看 到 每 个 网 络 接口 有 一 个 相关 的 子 网 掩 码 ， 它 是 判断 一 个 分 组 是 否 到 达 它 最 后 的 目的 
地 或 还 需要 被 转发 的 关键 。 通 常 ， 当 提 及 一 个 IP 地 址 的 网 络 部 分 时 ， 我 们 包括 任何 可 能 定义 
的 子 网 。 当 需要 区 分 网 络 和 子 网 时 ， 我 们 就 要 明确 地 指出 来 。 

环 回 网 络 ，127.0.0.0， 是 一 个 特殊 的 A 类 网 络 。 这 种 格式 的 地 址 是 不 会 出 现在 一 个 主机 的 
外 部 的 。 发 送 到 这 个 网 络 的 分 组 被 环 回 并 被 这 个 主机 接收 。 


RFC 1122 要 求 所 有 在 环 回 网 络 中 的 地 址 被 正确 地 处 理 。 因 为 环 回 接口 必须 指派 
一 个 地 址 ， 很 多 系统 选择 127.0.0.1 作 为 环 回 地 址 。 如 果 系 统 不 能 正确 识别 ， 像 
127.0.0.2 这 样 的 地 址 可 能 不 能 被 路 由 到 环 回 接口 而 被 传输 到 一 个 连接 的 网 络 ， 这 是 不 
允许 的 。 有 些 系统 可 能 正确 地 路 由 这 个 到 环 回 接口 的 分 组 ， 但 由 于 目标 地 址 与 地 址 
127.0.0.1 不 匹配 ， 分 组 被 丢弃 。 


图 18-2 显 示 了 一 个 Net/3 系 统 配 置 为 拒绝 接收 发 送 到 一 个 不 是 127.0.0.1 的 环 回 地 址 的 分 组 。 
6.1.2 ”IP 地 址 的 印刷 规定 
我 们 通常 以 点 分 十 进 制 数 表示 波 来 显示 一 个 下 地址 。 图 6-1 列 出 了 每 类 IP 地 址 的 范围 。 
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图 6-1 不 同 IP 地 址 类 的 范围 


对 于 我 们 的 有 些 例子 ， 子 网 字段 不 按 一 个 字 闻 对 齐 ( 即 ， 一 个 网 络 / 子 网 /主机 在 一 个 B 类 网 
络 中 分 为 16/11/5)。 从 点 分 十 进 制 数 表示 法 很 难 表示 这 样 的 地 址 ， 因 此 我 们 还 是 用 方块 图 来 说 
明 IP 地 址 的 内 容 。 我 们 用 三 个 部 分 显示 每 个 地 址 : 网 络 、 子 网 和 主机 。 每 个 部 分 的 阴影 指示 
它 的 内 容 。 图 6-2 用 我 们 网 络 示例 (1.14 节 ) 中 的 主机 sun 的 以 太 网 接口 来 同时 说 明 块 表示 法 和 点 
分 十 进 制 数 表 示 法 。 
140 252 13 33 
11111100 |00001101 | 00100091 | 
^ 、 8B 类 网 络 140.252 : 子 网 105 — 74 EU P 
xn 
255 255 [各 
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图 6-2 可 选 的 IP 地 址 表示 法 








当地 址 的 一 个 部 分 不 是 全 为 0 或 1 时 ， 我 们 使 用 两 个 中 等 程度 的 阴影 。 有 两 种 中 等 
程度 的 阴影 ,这样 我 们 就 能 区 分 网 络 和 子 网 部 分 或 用 来 显示 如 图 6-31 所 示 的 地 址 组 


A 
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6.1.3 主机 和 路 由 器 


在 一 个 Internet 上 的 系统 通常 能 划分 为 两 类 : 主机 和 路 由 器 。 一 个 主机 通常 有 一 个 网 络 接 
口 ， 并 且 是 一 个 IP 分 组 的 源 或 目标 方 。 一 个 路 由 器 有 多 个 网 络 接口 ， 当 分 组 向 它 的 目标 方 移 
动 时 将 分 组 从 一 个 网 络 转发 到 下 一 个 网 络 。 为 执行 这 个 功能 ， 路 由 器 用 各 种 专用 路 由 协议 来 
交换 关于 网 络 拓扑 的 信息 。IP 路 由 问题 比较 复杂 ， 在 第 18 章 开始 讨论 它们 。 

如 果 一 个 有 多 个 网 络 接口 的 系统 不 在 网 络 接口 间 路 由 分 组 ， 仍 然 叫 一 个 主机 。 一 个 系统 
可 能 既是 一 个 主机 又 是 一 个 路 由 器 。 这 种 情况 经 常 发 生 在 当 一 个 路 由 器 提供 运输 层 服务 如 用 
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于 配置 的 Telnet 访 问 ， 或 用 于 网 络 管理 的 SNMP 时 。 当 区 分 一 个 主机 和 路 由 器 间 的 意义 并 不 重 
要 时 ， 我 们 使 用 术语 系统 。 

不 谨慎 地 配置 一 个 路 由 器 会 干扰 一 个 网 络 的 正常 运转 ， 因 此 RFC 1122 规 定 一 个 系统 必须 
默认 为 一 个 主机 来 操作 ， 并 且 必 须 显 式 地 由 一 个 管理 员 来 配置 作为 一 个 路 由 器 操作 。 这 样 做 
是 不 鼓励 管理 员 将 通用 主机 作为 路 由 器 来 操作 而 没有 仔细 地 配置 。 在 Net/3 中 ， 如 果 全 局 整数 
ipforwarding 不 为 0， 则 一 个 系统 作为 一 个 路 由 器 ;如 果 ijpforwarding 为 0( 上 默认 )， 则 系 
统 作 为 一 个 主机 。 

在 Net/3 中 ， 一 个 路 由 器 通常 称 为 网 关 ， 虽 然 术语 网 关 现在 更 多 的 是 与 一 个 提供 应 用 层 路 
由 的 系统 相关 ， 如 一 个 电子 邮件 网 关 ， 而 不 是 转发 IP 分 组 的 系统 。 我 们 在 本 书 中 使 用 术语 路 
由 器 ， 并 假设 ipforwarding 非 0。 在 编译 Net/3 内 核 期 间 ， 当 GATEWAY 被 定义 时 ， 我 们 还 
有 条 件 地 包括 所 有 代码 ， 它 们 将 ijpforwarding 定 义 为 1。 


6.2 代码 介绍 
图 6-3 所 列 的 两 个 头 文件 和 两 个 C 文 件 包含 本 章 中 讨论 的 结构 定义 和 实用 函数 。 
netinet/in.h Internet 地 址 定义 
netinet/in_var.h | Internet 接 口 定义 
netinet/in.c JInternet 初 始 化 和 实用 国 数 
netinet/if.c Internet 接 口 实 用 函数 


图 6-3 本 章 讨论 的 文件 









图 6-4 所 列 的 是 本 章 中 介绍 的 两 个 全 局 变量 。 


in ifaddr struct in ifaddr * in_ifaddr 结 构 列表 的 首部 
in_interfaces int 有 IP 能 力 的 接口 个 数 


图 6-4 在 本 章 中 介绍 的 全 局 变量 










6.3 接口 和 地 址 小 结 


在 本 章 讨 论 的 所 有 接口 和 地 址 结构 的 一 个 例子 配置 如 图 6-5 所 示 。 

图 6-5 显 示 了 我 们 的 三 个 接口 例子 : 以 太 网 接口 、SLIP 接 口 和 环 回 接口 。 它 们 都 有 一 个 链 
路 层 地 址 作为 地 址 列表 中 的 第 一 个 结 点 。 显 示 的 以 太 网 接口 有 两 个 IP 地 址 ， SLIP 接 口 有 一 个 
IP 地 址 ， 并 且 环 回 接口 有 一 个 下 地 址 和 一 个 OSI 地 址 。 

注意 所 有 的 IP 地 址 被 链接 到 in_ifaqdr 列 表 中 ， 并 且 所 有 链 路 层 地 址 能 从 ifnet._addrs 
数组 访问 。 

为 了 清楚 起 见 ， 图 6-5 没 有 画 出 每 个 ifaddr 结 构 中 的 指针 ifa_ifp。 这 些 指针 回 指 包含 
此 ifaddr 结 构 的 列表 的 首部 ifnet 结 构 。 

接 下 来 的 部 分 讨论 图 6-5 中 的 数据 结构 及 用 来 查看 和 修改 这 些 结构 的 IP 专 用 ioct1 命 令 。 
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ifnet: le softc[0]: S1, softc[0]: loif: 


y 









ifaddr() 









Sockaddr dl() 


Sockaddr dl{} 








sockaddr d1í() 
Sockaddr d1() 











每 个 in_ifaddr{} 以 if 
-一 个 ifadqdr{} 开 始 





ia next 


in ifaddr() 


ia next 


















in ifaddr() 


in ifaddr() 












ia next 


ifaddr() 





图 6-5 接口 和 地 址 数据 结构 


6.4 sockaddr_in 结 构 


我 们 在 第 3 章 讨 论 了 通用 的 sockaddr 和 ifaddr 结 构 。 现 在 我 们 显示 IP 专 用 的 结构 : 
sockaddr_in 和 in_ifaddr。 在 Internet 域 中 的 地 址 存放 在 一 个 sockaddr_in 结 构 : 
68-70 ”由 于 历史 原因 ，Net/3 以 网 络 字 节 序 将 Internet 地 址 存储 在 一 个 in_addr 结 构 中 。 这 个 结 
构 只 有 一 个 成 员 s_addr， 它 包含 这 个 地 址 。 虽 然 这 是 多 余 和 混乱 的 ， 但 在 Net/3 中 一 直 保 持 
这 种 组 织 方 式 。 

106-112 sin_len 总 是 16( 结 构 sockaddr_in 的 大 小 )， 并 且 sin_family 为 AF_INET。 
sin_port 是 一 个 网 络 字 节 序 (不 是 主机 字 节 序 ) 的 16 bit 值 ， 用 来 分 用 运输 层 报 文 。sin_addr 
标识 一 个 32 bit Internet 地 址 。 

图 6-6 显 示 了 sockaGdr_in 的 成 员 sin_port、sin_addr 和 sin_zero 禾 盖 sockaddr 
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的 成 员 sa_data。 在 Internet 域 中 ，sin_zero 未 用 ， 但 必须 由 全 0 字 节 组 成 (2.7 节 )。 将 它 
追加 到 sockaddr_in 结 构 后 面 ， 以 得 到 与 一 个 sockaddr 结 构 一 样 的 长 度 。 


- in.h 
68 struct in_addr { 
69 . u _ long s, addr; /* 32-bit IP address, net byte order */ 
70 ); 
106 struct sockaddr in ( 
107 u.char sin len; /* sizeof (struct sockaddr in) - 16 */ 
108 u_char sin family; /* AF INET */ 
109 u.short sin port; /* 16-bit port number, net byte order */ 
110 Struct in, addr sin adór; 
111 char Sin zero[8]; /* unused */ 
112 ); . 
in.h 


图 6-6 结构 sockaddr_in 


通常 ， 当 一 个 Internet 地 址 存储 在 一 个 u_long 中 时 ， 它 以 主机 字 节 序 存储 ， 以 便于 地 址 的 
压缩 和 位 操作 。 在 in_addzr 结 构 (图 6-7) 中 的 s_addr 是 一 个 值得 注意 的 例外 。 


family 
ol | 00000 00 


1 1 g 14 bytes 


amily 


8 bytes 
u, long addr.s, addr 
4 bytes 
图 6-7 一 个 sockaddr_in 结 构 ( 省 略 sin_) 的 组 织 


6.5 in ifaddr 结 构 


图 6-8 显 示 了 为 Internet 协 议定 义 的 接口 地 址 结构 。 对 于 每 个 指派 给 一 个 接口 的 IP 地 址 ， 分 
配 了 一 个 in_ifadqdr 结 构 ， 并 且 添 加 到 接口 地 址 列表 中 和 IP 地 址 全 局 列表 中 (图 6-5)。 
41-45 in_ifaddr 开 始 是 一 个 通用 接口 地 址 结构 ia_ifa， 跟 着 是 下 专用 成 员 。ifaddr 结 
构 显 示 在 图 3-15 中 。 两 个 宏 ia_ifp 和 ia_flags 简 化 了 对 存储 在 通用 ifadqr 结 构 中 的 接口 
指针 和 接口 地 址 标志 的 访问 。ia_next 维 护 指派 给 任意 接口 的 所 有 Internet 地 址 的 链接 列表 。 
这 个 列表 独立 于 每 个 接口 关联 的 链 路 层 i faddr 结 构 列表 ， 并 且 通 过 全 局 列表 in_ifaddr 来 
访问 。 
46-54 其余 的 成 员 ( 除 了 ia_multiaddrs) 显 示 在 图 6-9 中 ， 它 显示 了 在 我 们 的 B 类 网 络 例子 
中 sun 的 三 个 接口 的 相应 值 。 地 址 按 主机 字 节 序 以 u._long 变 量 存储 ; 变量 in_addr 和 
sockaddr_in 按 照 网 络 字 节 序 存储 。sun 有 一 个 PPP 接 口 ， 但 显示 在 本 表 中 的 信息 对 于 一 个 
PPP 或 SLIP 接 口 是 一 样 的 。 
55-56 结构 in_ifaddr 的 最 后 一 个 成 员 指向 一 个 in_multi 结 构 的 列表 (12.6 节 )， 其 中 每 
项 包含 与 此 接口 有 关 的 一 个 下 多 播 地 址 。 
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in_var.h 
41 struct in ifaddr { 
42 struct  ifaddr ia ifa; /* protocol-independent info */ 
43 #define ia ifp ia ifa.ifa ifp 
44 #define ia flags ia ifa.ifa flags 
45 struct in ifaddr *ia next; /* next internet addresses list */ 
46 u long ia net; /* network number of interface  */ 
47 u long ia,netmask; /* mask of net part */ 
48 u.long ia subnet; /* subnet number, including net */ 
49 u long ia subnetmask; /* mask of subnet part */ 
50 struct in addr ia netbroadcast; /* to recognize net broadcasts  */ 
51 struct  sockaddr in ia addr; /* space for interface name */ 
52 struct  sockaddr in ia dstaddr;  /* space for broadcast addr */ 
53 #define ia broadaddr ia dstaddr 
54 struct  sockaddr in ia sockmask; /* space for general netmask */ 
55 struct in multi *ia multiaddrs; /* list of multicast addresses  */ 
56 ); 

in var.h 





图 6-8 结构 in_ifaddr 
















































[| wx ou 类 型 | 以 大 网 PPP Ef bel 说 明 
ia, addr ge 网 络 ， 子 网 和 主机 号 
| 140.252.13.33 127.0.0.1 
| 
ia, net u long Es DESA 
140.252.0.0 140.252.0.0 127.0.0.0 
ia_netmask u_ long 网 络 pr 3 
255.255.0.0 255.255.0.0 255.0.0.0 
ia, subnet u long EE 网 络 和 池 网 号 
140.252.13.32 140.252.1.0 127.0.0.0 
ia, subnetmask |u_long 网 络 和 子 网 掩 码 
255.255.255.224 255.255.255.0 255.0.0.0 
ia_netbroadcast |in_adar B 1 a ht 
| 140.252.255.255 140.252.255.255  127.255.255.255 网 络 广播 地 址 
ida_proadaGdr sockaddr_in 2 x. 
| 1402521363 定向 播 地 址 
:a, dstaddr Sockaddr in 目的 地 址 


140.252.1.183 127.0.0.1 





íf$ia subnetmask 


但 是 用 网 络 字 节 序 








ia sockmask —— |sockeddr in| EE | NN | 
| 255.255.255.224 255.255.255.0 255.0.0.0 
: l 





图 6-9 sun 上 的 以 太 网 、PPP 和 环 回 in_ifaddr 结 构 


6.6 地址 指派 


在 第 4 章 中 ， 我 们 显示 了 当 接 口 结构 在 系统 初始 化 期 间 被 识别 时 的 初始 化 。 在 Internet 协 议 
能 通过 这 个 接口 进行 通信 前 ， 必 须 指 派 一 个 I1P 地 址 。 一 旦 Net/3 内 核 运行 ， 程 序 ifconfig 就 
配置 这 些 接口 ，ifconfig 通 过 在 某 个 插口 上 的 ioct1 系 统 调用 来 发 送 配置 命令 。 这 通常 通 
过 /etc/netstart shell 脚 本 来 实现 ， 这 个 脚本 在 系统 引导 时 执行 。 

图 6-10 显 示 了 本 章 中 讨论 的 ioct1 命 令 。 命 令 相关 的 地 址 必须 是 此 命令 指定 插口 所 支持 
的 地 址 族 类 ( 即 ， 你 不 能 通过 一 个 UDP 插 口 配 置 一 个 OSI 地 址 )。 对 于 IP 地 址 ，ioct1 命 令 在 一 
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个 UDP 插 口上 发 送 。 


SIOCGIFADDR struct ifreq in control 获得 接口 地 址 

SIOCGIFNETMASK struct ifreq * in control 获得 接口 网 络 掩 码 
SIOCGIFDSTADDR struct ifreq * in control 获得 接口 目标 地 址 
SIOCGIFBRDADDR struct ifreq in, control 获得 接口 广播 地 址 


SIOCSIFADDR struct ifreg in, control 设置 接口 地 址 

SIOCSIFNETMASK struct ifreq in, control 设置 接口 网 络 掩 码 
SIOCSIFDSTADDR struct ifreq in control 设置 接口 目标 地 址 
SIOCSIFBRDADDR struct ifreg in control 设置 接口 广播 地 址 





图 6-10 接口 ioct1 命 令 


系统 调用 { 







: | 


if, ioctl 


图 6-11 本 章 中 说 明 的 ioctl1 国 数 
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获得 地 址 信息 的 命令 从 SIOCG 开 始 ， 设 置地 址 信息 的 命令 从 SIOCS 开始 。SIOC 代 表 
socket ioctl，G 代 表 get， 而 S 代 表 set。 

在 第 4 章 中 ， 我 们 看 到 了 5 个 与 协议 无 关 的 ioct1 命 令 。 图 6-10 中 的 命令 修改 一 个 接口 的 
相关 地 址 信息 。 由 于 地 址 是 特定 协议 使 用 的 ， 因 此 ， 命 令 处 理 是 与 协议 相关 的 。 图 6-11 强 调 
了 与 这 些 命令 关联 的 ioct1l 相 关 函 数 。 

6.6.1 ifioctliü* 

如 图 6-11 所 示 ，ifioct1 将 协议 无 关 的 ioct1 命 令 传递 给 此 插口 关联 协议 的 pr_usrreq 

函数 。 将 控制 交 给 udp_usrreq， 并 且 又 立即 传 给 ijn_control， 在 in_control 中 进行 大 


部 分 的 处 理 。 如 果 在 一 个 TCP 揪 口上 发 送 同 样 的 命令 ， 控 制 最 后 也 会 到 达 in_control。 图 
6-12 再 次 显示 了 ifioct1 中 的 default 代 码 ， 第 一 次 显示 在 图 4-22 中 。 


447 default: . fec 
448 if (so-»so proto == 0) 
449 return (EOPNOTSUPP); 
450 return ((*so-»so proto-»pr usrreq) (so, PRU CONTROL, 
451 cmd, data, ifp)); 
452 ) 
453 return (0); 
454 ) l 
if.c 


图 6-12 国 数 ifioct1: 特定 协议 的 命令 


447-454 国 数 将 图 6-10 中 所 列 ioct1 命 令 的 所 有 相关 数据 传 给 与 请 求 指定 的 播 口 相 关联 的 
协议 的 用 户 请 求 函 数 。 对 于 一 个 UDP 揪 口 ， 调 用 udap_usrregq。23.10 节 讨论 udqp_usrreg 国 
数 的 细节 。 现 在 ， 我 们 仅 需要 查看 udp_usrreq 中 的 PRU_CONTROL 代 码 : 


if (req == PRU, CONTROL) 
return (in controlí(so, (int)m, (caddr, t)addr, (struct ifnet *)control)); 


6.6.2 in controlif4/ 


图 6-11 显 示 了 通过 soo_ioct1 中 的 aefault 或 ifioct1 中 的 与 协议 相关 的 情况 ， 控 制 
能 到 达 in_control。 在 这 两 种 情况 中 ，udp_usrreg 调 用 in_control， 并 返回 
in_control 的 返回 值 。 图 6-13 显 示 了 jin_control 。 

132-145 ”so 指向 这 个 ioct1 命 令 ( 由 第 二 个 参数 cmd 标 识 ) 指 定 的 插口 。 第 三 个 参数 data 指 
向 命令 所 用 或 返回 的 数据 (图 6-10 的 第 二 列 )。 最 后 一 个 参数 ifp 为 空 (来 自 soo-_ioct1 的 无 接 
口 ioct1) 或 指向 结构 1freq 或 in_aliasreq 中 命名 的 接口 (来 自 ifioct1 的 接口 Loct1)。 
in_control 初 始 化 fr 和 ifra 来 访问 作为 一 个 1freq 或 ljn_aliasreq 结 构 的 data。 
146-152 如果 ifp 指 向 一 个 ifnet 结 构 ， 这 个 for 循 环 找到 与 此 接口 关联 的 Internet 地 址 列 
表 中 的 第 一 个 地 址 。 如 果 发 现 一 个 地 址 ，ia 指 向 它 的 in_ifaddr 结 构 ， 否 则 ia 为 空 。 

车 ifp 为 空 ，cmd 就 不 会 匹配 第 一 个 switch 中 的 任何 情况 ; 或 第 二 个 switch 中 任何 非 
默认 情况 。 在 第 二 个 switch 中 的 defaulit 情 况 中 ， 当 ifp 为 空 时 ， 返 回 EOPNOTSUPP。 
153-330 in_control 中 的 第 一 个 switch 确 保 在 第 二 个 switch 处 理 命令 之 前 每 个 命令 的 
前 提 条 件 都 福 足 。 在 后 面 的 章节 会 单独 说 明 各 个 情况 。 
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132 in control(so, cmd, data, ifp) m.c 
133 struct socket *so; 
134 int cmd; 
135 caddr t data; 
136 struct ifnet *ifp; 
137 ( 
138 struct ifreq *ifr = (struct ifreq *) data; 
139 Struct in ifaddr *ia - 0; 
140 struct ifaddr *ifa; 
141 Struct in ifaddr *oia; 
142 Struct in aliasreq *ifra - (struct in aliasreq *) data; 
143 struct sockaddr in oldaddr; 
144 int error, hostisNew, maskIsNew; 
145 u long i; 
146 /* 
147 * Find address for this interface, if it exists. 
148 */ 
149 if (ifp) 
150 for (ia - in ifaddr; ia; ia - ia-»ia next) 
151 if (ia-»ia ifp -- ifp) 
152 break; 
153 Switch (cmd) { 
/* establish preconditions for colmandes */ 
218 } 
219 Switch (cmd) ( 
/* perform the commands */ 
326 default: 
327 if (ifp == 0 |l ifp-»if ioctl == O0) 
328 return (EOPNOTSUPP); 
329 return ((*ifp-»if ioctl) (ifp, cmd, data)); 
330 } 
331 return (0); 
332 ) 。 
m.c 





图 6-13 函数 in_control 


如 果 在 第 二 个 switch 中 的 default 情 况 被 执行 ，i fp 指向 一 个 接口 结构 ; 并 且 如 果 接 
口 有 一 个 if_ioct1 函 数 ， 则 in_control 将 ioct1 命 令 传 给 这 个 接口 进行 设备 的 特定 处 理 。 


Net/3 不 定义 任何 会 被 default 情 况 处 理 的 接口 命令 。 但 是 ， 一 个 特定 设备 的 驱 


动 程序 可 能 会 定义 它 自 己 的 接口 Loct1l 命 令 ， 并 通过 这 个 case 来 处 理 它 们 。 
331-332 我 们 会 看 到 这 个 switch 语 句 中 的 很 多 情况 都 直接 返回 了 。 如 果 控 制 落 到 两 个 
switch 语 句 外 ， 则 in_control 返 回 0。 第 二 个 switch 中 有 几 个 case 执 行 了 跳出 语句 。 
我 们 按照 下 面 的 顺序 查看 这 个 接口 ioct1 命 令 : 
。 指派 一 个 地 址 、 网 络 掩 码 或 目标 地 址 ; 
。 指派 一 个 广播 地 址 ; 
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。 取 回 一 个 地 址 、 网 络 掩 码 、 目 标 地 址 或 广播 地 址 ; 

*。 给 一 个 接口 指派 多 播 地 址 ; 

。 删除 一 个 地 址 。 

对 于 每 组 命令 ， 在 第 一 个 switch 语 句 中 进行 前 提 条 件 处 理 ， 然 后 在 第 二 个 switch 语 名 
中 处 理 命令 。 ， 


6.6.3 前 提 条 件 : SIOCSIFADDR、SIOCSIFNETMASK 和 SIOCSIFDSTADDR 


图 6-14 显 示 了 对 SIOCSIFADDR、SIOCSIFNETMASK 和 SIOCSIFDSTADDR 的 前 提 条 件 
检验 。 





166 case SIOCSIFADDR: me 

167 case SIOCSIFNETMASK: 

168 casé SIOCSIFDSTADDR: 

169 if ((so-»so state & SS PRIV) == O0) 

170 return (EPERM); 

171 if (ifp == 0) 

172 panic("in control"); 

173 if (ia == (struct in ifaddr *) 0) ( 

174 oia - (struct in ifaddr *) ` 

175 malloc (sizeof *oia, M IFADDR, M WAITOK); 

176 if (oia == (struct in ifaddr *) NULL) 

177 return (ENOBUFS); 

178 bzero((caddr t) oia, sizeof *oia); 

179 if (ia = in ifaddr) ( 

180 for (; ia-»ia next; ia = ia-»ia next) 

181 continue; 

182 ia-»ia next - oia; 

183 ) else 

184 ` in ifaddr = oia; 

185 ia = oia; 

186 if (ifa = ifp-»if addrlist) ( 

187 for (; ifa-»ifa next; ifa = ifa-»ifa next) 

188 continue; 

189 ifa-»ifa next = (struct ifaddr *) ia; 

190 ) eise 

191 ifp-»if addrlist = (struct ifaddr *) ia; 

192 ia-»ia ifa.ifa addr = (struct sockaddr *) &ia-»ia addr; 

193 ia-»ia ifa.ifa dstaddr 

194 - (struct sockaddr *) &ia-»ia dstaddr; 

195 . ia-»ia ifa.ifa netmask 

196 = (struct sockaddr *) &ia-»ia sockmask; 

197 ia-»ia sockmask.sin len - 8; 

198 if (ifp-»if flags & IFF BROADCAST) ( 

199 ia-»ia broadaddr.sin len = sizeof(ia-»ia addr); 

200 ia-»ia broadaddr.sin family = AF INET; 

. 201- } 

202 ia->ia_ifp = ifp; 

203 if (ifp != &loif) 

204 in_interfaces++; 

205 } 

206 break; . 
in.c 





图 6-14 gRERin control: 地 址 指派 
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l. 仅 用 于 超级 用 户 
166-172 如 果 这 个 插口 不 是 由 一 个 超级 用 户 进程 创建 的 ， 这 些 命令 被 禁止 ， 并且 in_ 
control 返 加 EPERM。 如 果 此 请 求 没 有 关联 的 接口 ， 内 核 调用 panic。 由 于 如 果 ifiocti 不 
能 找到 一 个 接口 ， 它 就 返回 (图 4-22)， 因 此 ，panic 从 来 不 会 被 调用 。 

当 一 个 超级 用 户 进 程 创 建 一 个 插口 时 ，socreate( 图 15-16) 设 置 标志 SS_PRIV。 

因为 这 里 的 检验 是 针对 标志 而 不 是 有 效 的 进程 用 户 ID 的 ， 所 以 一 个 设置 用 户 ID 的 根 

进程 能 创建 一 个 插口 ， 并 且 放 章 它 的 超级 用 户 权 限 ， 但 仍然 能 发 送 有 特权 的 ioct1 

命令 。 

2. 分 配 结构 
173-191 ”如果 ia 为 空 ， 命 令 请 求 一 个 新 的 地 址 。in_control 分 配 一 个 ijn_ifaddr 结 构 ， 
用 bzero 清 除 它 ， 并 且 将 它 链接 到 系统 
的 in_ifaddr 列 表 中 和 此 接口 的 
if_addr1list 列 表 中 。 

3. 初始 化 结构 
192-206 代码 的 下 一 部 分 初始 化 
in_ifaddr 结 构 。 首 先 ， 在 此 结构 的 
ifaddr 部 分 的 通用 指针 被 初始 化 为 指 
向 结构 in_ifaddr 中 的 结构 
sockadqr_in。 必 要 时 ， 此 函数 还 初 | 
始 化 结构 ia_sockmask 和 和 图 6-15 被 in_control 和 初始 化 后 的 一 个 in_ifaddr 结 构 
ia_broadaddr。 图 6-15 说 明了 初始 化 
后 的 结构 in_ifaddr。 
202-206 最 后 ，in_control 建 立 从 in_ifaddr 到 此 接口 的 ifnet 结 构 的 回 指 指针 。 

Net3 在 in_interfaces 中 只 统计 非 环 回 接口 。 





ifaddrí) 


ifa dstaddr 







in ifaddr() 





ia sockmask 






6.6.4 地 址 指派 SIOCSIFADDR 


前 提 条 件 处 理 代码 保证 ia 指 向 一 个 要 被 SIOCSIFADDR 命 令 修 改 的 in_ifaddr 结 构 。 图 
6-16 显 示 了 in_control 第 二 个 switch 中 处 理 这 个 命令 的 执行 代码 。 


in.c 
259 case SIOCSIFADDR: 
260 return (in ifinit(ifp, ia, 
261 (struct sockaddr in *) &ifr-»ifr addr, 1)); . 
imn.c 


图 6-16 Hin control: 地 址 指派 
159-261 in_ifinit 完 成 所 有 的 工作 。IP 地 址 包含 在 ifreq 结 构 (ifr_addr) 里 传递 给 
in ifinit, 
6.6.5 in ifinitiü"2 


in_ifinit 的 主要 步骤 是 : 
. 5t 将 地 址 复制 到 此 结构 并 将 此 变化 通知 硬件 ; 
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。 忽略 原 地 址 配置 的 任何 路 由 ; 

。 为 这 个 地 址 建立 一 个 子 网 掩 码 ; 

。 建立 一 个 默认 路 由 到 连接 的 网 络 (或 主机 ); 

。 将 此 接口 加 入 到 所 有 主机 组 。 

从 图 6-17 开 始 分 三 个 部 分 讨论 这 段 代码 。 
353-357 in_ifinit 的 四 个 参数 为 : ifp， 指 向 接口 结构 的 指针 ; ia， 指 向 要 改变 的 
in_ifaddr 结 构 的 指针 ; sin， 指 向 请 求 的 下 地 址 的 指针 ; scrup， 指 示 这 个 接口 如 果 存 在 
路 由 应 该 被 忽略 。i 保存 主机 字 节 序 的 耻 地 址 。 





353 in ifinit(ifp, ia, sin, scrub) me 

354 struct ifnet *ifp; 

355 struct in ifaddr *ia; 

356 struct sockaddr in *sin; 

357 int scrub; 

358 ( 

359 u long i = ntohl(sin-»sin addr.s addr):; 

360 struct sockaddr in oldaddr; 

361 int S = splimp(), flags = RTF UP, error, ether output(); 

362 oldadár = ia-»ia, addr; 

363 ia-»ia addr = *sin; 

364 /* 

365 * Give the interface a chance to initialize 

366 * if this is its first address, 

367 * and to validate the address if necessary. 

368 */ t 

369 if (ifp-»if ioctl && 

370 (error = (*ifp-»if ioctl) (ifp, SIOCSIFADDR, (caddr t) ia))) t 

371 Splxí(s); 

372 ia-»ia, addr = oldaddr; 

373 return (error); 

374 ) 

375 if (ifp-»if output == ether output) ( /* XXX: Another Kludge */ 

376 ia-»ia ifa.ifa rtrequest - arp rtrequest; 

377 ia-»ia ifa.ifa flags |= RTF, CLONING; 

378 ) 

379 splx(s); 

380 if (scrub) ( 

381 ia-»ia, ifa.ifa addr = (struct sockaddr *) &oldaddr; 

382 in ifscrub(ifp, ia); 

383 ia-»ia ifa.ifa addr - (struct sockaddr *) &ia-»ia addr; 

384 ) . 
in.c 





图 6-17 jin ifinic: 地 址 指派 和 路 由 初始 化 


1. 指派 地 址 并 通知 硬件 
358-374 in_control 将 原来 的 地 址 保存 在 ol14addr 中 ， 万 一 发 生 差错 时 ， 必 须 恢复 它 。 
如 果 接 口 定义 了 一 个 if_ioct1l1 函 数 ， 则 in_control 调 用 它 。 相 同 接口 的 三 个 函数 
leioct1、slioct1 和 1loioct1 在 下 一 节 讨 论 。 如 果 发 生 差错 ， 恢 复原 来 的 地 址 ， 并 且 
in_control 返 回 。 

2. 以 太 网 配置 
375-378 对 于 以 太 网 设备 ，arpb_rtredquest 作 为 链 路 层 路 由 函数 被 选择 ， 并 且 设 置 
RTF_CLONING 标 志 。arp_rtrequest 在 21.13 节 讨论 ， 而 RTF_CLONING 在 19.4 节 的 最 后 
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讨论 。 如 XXX 注释 所 建议 ， 在 此 加 入 代码 以 避免 改变 所 有 以 太 网 驱动 程序 。 
3. 忽略 原来 的 路 由 

379-384 ”如 果 调 用 者 要 求 已 存在 的 路 由 被 清除 ， 原 地 址 被 重新 连接 到 ifa_addr， 同 时 

in_ifscrub 找 到 并 废除 任何 基于 老 地 址 的 路 由 。in_ifscrub 返 回 后 ， 新 地 址 被 恢复 。 
in_ifinit 显 示 在 图 6-18 中 的 部 分 构造 网 络 和 子 网 掩 码 。 


385 if (IN CLASSA(i)) inc 

386 ia->ia_netmask = IN_CLASSA_NET; 

387 else if (IN_CLASSB(i)) 

388 ia->ia_netmask = IN CLASSB, NET; 

389 else 

390 ia-»ia netmask = IN CLASSC NET; 

391 /* 

392 * The subnet mask usually includes at least the standard network part, 

393 * but may may be smaller in the case of supernetting. 

394 * If it is set, we believe it. 

395 */ 

396 if (ia-»ia, subnetmask == 0) ( 

397 ia-»ia subnetmask = ia-»ia netmask; 

398 ia-»ia sockmask.sin addr.s addr = htonl(ia-»ia subnetmask); 

399 ) else 

400 ia-»ia netmask &- ia-»ia subnetmask; 

401 ia-»ia net - i & ia-»ia, netmask; 

402 ia-»ia subnet - i & ia-»ia subnetmask; 

403 in socktrim(&ia-»ia | sockmask); inc 
n. 


图 6-18 Bin ifinit: 网 络 和 子 网 掩 码 


4. 构造 网 络 撞 码 和 默认 子 网 撞 码 
385-400 ”根据 地 址 是 一 个 A 类 、B 类 或 C 类 地 址 ， 在 ia_netmask 中 构造 了 一 个 尝试 性 网 络 
掩 码 。 如 果 这 个 地 址 没有 子 网 掩 码 ，ia_subnetmask 和 ia_sockmask 被 初始 化 为 
ia_netmask 中 的 尝试 性 掩 码 。 

如 果 指 定 了 一 个 子 网 ，in_ifinit 将 这 个 尝试 性 网 络 掩 码 和 这 个 已 存在 的 子 网 掩 码 进行 
逻辑 与 运算 来 获得 一 个 新 的 网 络 掩 码 。 这 个 操作 可 能 会 清除 该 尝试 性 网 络 掩 码 的 一 些 1 bit( 它 
从 来 不 设置 0 bit， 因 为 0 逻辑 与 任何 值 都 得 到 0)。 在 这 种 情况 下 ， 网 络 掩 码 比 所 考虑 的 地 址 类 
型 所 期 望 的 要 少 一 些 1 bit。 

这 巴 作 超级 联网 ， 它 在 REC 1519 [Fuller et al. 1993] 中 作 了 描述 。 一 个 超级 网 络 

是 几 个 A 类 、B 类 或 C 类 网 络 的 一 个 群 组 。 卷 1 的 10.8 节 也 讨论 了 超级 联网 。 


一 个 接口 默认 配置 为 不 划分 子 网 ( 即 ， 网 络 和 子 网 的 掩 码 相 同 )。 一 个 显 式 请 求 (用 
SIOCSIFNETMASK 或 SIOCAIFADDR) 用 来 允许 子 网 划分 (或 超级 联网 )。 

5. 构造 网 络 和 子 网 数量 
401-403 网络 和 子 网 数量 通过 网 络 和 子 网 掩 码 从 新 地 址 中 获得 。 函 数 in_.socktrim 通 过 查 
找 掩 码 中 包含 bit 的 最 后 一 个 字 节 来 设置 in_sockmask( 是 一 个 sockaddr_in 结 构 ) 的 长 度 。 

图 6-19 显 示 了 in_ifinit 的 最 后 一 部 分 ， 它 为 接口 添加 了 一 个 路 由 ， 并 加 入 所 有 主机 多 
播 组 。 

6. 为 主机 或 网 络 建立 路 由 
404-422 下 一 步 是 为 新 地 址 所 指定 的 网 络 创建 一 个 路 由 。in_control 从 接口 将 路 由 度量 
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复制 到 结构 in_ifaddr 中 。 如 果 接 口 支 持 广 播 ， 则 构造 广播 地 址 ， 并 且 把 目的 地 址 强制 为 分 
配给 环 回 接口 的 地 址 。 如 果 一 个 点 对 点 接口 没有 一 个 指派 给 链 路 另 一 端的 下 地 址 ， 则 
in_control 在 试图 为 这 个 无 效 地 址 建立 路 由 前 返回 。 
in_ifinit 将 flags 初 始 化 为 RTF._UP， 并 与 环 回 和 点 对 点 接口 的 RTF_HOST 进 行 逻 辑 或 。 
rtinit 为 此 接口 给 这 个 网 络 ( 不 设置 RTF_HOST) 或 主机 (设置 RTF_HOST) 安 装 一 个 路 由 。 若 
rtinit 安 装 成 功 ， 则 设置 ia_flags 中 的 标志 IFA_ROUTE， 指 示 已 给 此 地 址 安装 了 一 -个 路 由 。 





in.c 

404 /* 

405 * Add route for the network. 

406 */ 

407 ia-»ia ifa.ifa metric = ifp-»if metric; 

408 if (ifp-»if flags & IFF BROADCAST) ( 

409 ia-»ia broadaddr.sin addr.s addr - 

410 htonl(ia-»ia subnet | "ia-»ia, subnetmask); 

411 ia-»ia, netbroadcast.s, addr = 

412 htonl(ia-»ia net | ^ia-»ia netmask); 

413 ) else if (ifp--if flags & IFF LOOPBACK) { 

414 ia-»ia ifa.ifa dstaddr = ia-»ia,ifa.ifa addár; 

415 flags |= RTF HOST; 

416 ) else if (ifp-»if flags & IFF POINTOPOINT) ( 

417 if (ia-»ia dstaddr.sin family !- AF INET) 

418 return (0); 

419 flags |- RTF HOST; 

420 } 

421 if ((error = rtinit(&(ia-»ia ifa), (int) RTM ADD, flags)) == 0) 

422 ia-»ia flags |- IFA ROUTE; : 

423 /* 

424 * If the interface supports multicast, join the "all hosts" 

425 * multicast group on that interface. 

426 */ 

427 if (ifp-»if flags & IFF MULTICAST) ( 

428 struct in_addr addr; 

429 addr.s, addr = htonl(INADDR ALLHOSTS GROUP); 

430 in addmulti(&addr, ifp); 

431 ) 

432 return (error); 

433 ) . 
in.c 





图 6-19 Ein ifinit: 路 由 和 多 播 组 


7. 加 入 所 有 主机 组 
423-433 最后， 一 个 有 多 播 能 力 的 接口 当 它 被 初始 化 时 必须 加 入 所 有 主机 多 播 组 。 


in_addqmulti 完 成 此 工作 ， 并 在 12.11 节 讨论 。 
6.6.6 网络 掩 码 指 派 : SIOCSIFNETMASK 


图 6-20 显 示 了 网 络 掩 码 命 令 的 处 理 。 


m.c 
262 case SIOCSIFNETMASK: 
263 i = ifra-»ifra addr.sin addr.s, addr; 
264 ia-»ia subnetmask = ntohl(ia-»ia, sockmask.sin addr.s addr = i); 
265 break; inc 


图 6-20 函数 ijn_control: 网 络 掩 码 指派 
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262-265 in_control 从 ifreq 结 构 中 获取 网 络 掩 码 ， 并 将 它 以 网 络 字 节 序 保存 在 
ia_sockrmask 中 ， 以 主机 字 节 序 保存 在 ia_subnetmask 中 。 
6.6.7 目的 地 址 指派 : SIOCSIFDSTADDR 


对 于 点 对 点 接口 ， 在 链 路 另 一 端的 系统 的 地 址 用 SIOCSIFDSTRADDR 命 令 指定 。 图 6-14 显 
示 了 图 6-21 中 的 代码 的 前 提 条 件 处 理 。 





236 case SIOCSIFDSTADDR: me 

237 if ((ifp-»if.flags & IFF POINTOPOINT) == 0) 

238 return (EINVAL); 

239 oldaddr = ia-»ia dstaddr; 

240 ia-»ia dstaddr = *(struct sockaddr, in *) &ifr-»ifr dstadár; 

241 if (ifp-»if ioctl && (error = (*ifp-»if ioctl) 

242 (ifp, SIOCSIFDSTADDR, (caddr t) ia))) ( 

243 ia-»ia dstaddr = oldaddr; 

244 return (error); 

245 H 

246 if (ia-»ia flags & IFA ROUTE) ( 

247 ia-»ia ifa.ifa dstaddr = (struct sockaddr *) &oldaddr; 

248 rtinit(&(ia-»ia ifa), (int) RTM DELETE, RTF HOST); 

249 ia-»ia ifa.ifa dstaddr = 

250 (struct sockaddr *) &ia-»ia dstaddr; 

251 rtinit(&(ia-»ia ifa), (int) RTM ADD, RTF HOST | RTF.UP); 

252 } 

253 break; . 
in.c 


图 6-21 函数 in_control: 目的 地 址 指派 
236-245 只 有 点 对 点 网 络 才 有 目的 地 址 ， 因 此 对 于 其 他 网 络 ，in_control1 返 回 EINVRAL。 
将 当前 目的 地 址 保存 在 olaaddr 后 ， 代 码 设置 新 地 址 ， 并 通过 函数 if_ioct1 通 知 硬件 。 如 


果 发 生 差错 ， 则 恢复 原 地 址 。 
246-253 ”如 果 地 址 原来 有 一 个 关联 的 路 由 ， 首 先 调用 rtinit 删 除 这 个 路 由 ， 并 再 次 调用 


rtinit 为 新 地 址 安装 一 个 新 路 由 。 
6.6.8 获取 接口 信息 


图 6-22 显 示 了 命令 SIOCSIFBRDADDR 的 前 提 条 件 处 理 ， 它 同 将 接口 信息 返回 给 调用 进程 
的 ioct1 命 令 一 样 。 





N.C 

207 case SIOCSIFBRDADDR: 

208 if ((so-»so state & SS PRIV) -- O0) 

209 return (EPERM); 

210 /* FALLTHROUGH */ 

211 case SIOCGIFADDR: 

212 case SIOCGIFNETMASK: 

213 case SIOCGIFDSTADDR: 

214 case SIOCGIFBRDADDR: 

215 if (ia == (struct in ifaddr *) 0) 

216 return (EADDRNOTAVAIL); 

217 break: . 
in.c 





图 6-22 jin control: 前 提 条 件 处 理 
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207-217 广播 地 址 只 能 通过 一 个 超级 用 户 进程 创建 的 插口 来 设置 。 命 令 SIOCSIFBRDRADDR 
和 4 个 STOCGxxx 命 令 仅 当 已 经 为 此 接 日 定义 了 一 个 地 址 时 才 起 作用 ， 在 这 种 情况 下 ，ia 不 会 
为 空 (ia 被 in_control 设 置 ， 图 6-13)。 如 果 ia 为 空 ， 返 回 EADDRNOTAVAIL。 

这 5 个 命令 (4 个 get 命 令 和 一 个 se! 命 令 ) 的 处 理 显 示 在 图 6-23 中 。 


220 case SIOCGIFADDR: me 
221 *((struct sockaddr in *) &ifr-»ifr addr) = ia-»ia addr; 
222 ` break; 
223 case SIOCGIFBRDADDR: 
224 if ((ifp-»if flags & IFF BROADCAST) -- 0) 
225 return (EINVAL); 
226 *((struct sockaddr in *) &ifr-»ifr dstaddr) = ia-»ia broadadár; 
227 break; 
228 case SIOCGIFDSTADDR: 
229 if ((ifp-»if flags & IFF POINTOPOINT) -- 0) 
230 return (EINVAL); 
231 *((struct sockaddr in *) &ifr-»ifr dstaddr) = ia-»ia, dstaddr; 
232 break; 
233 case SIOCGIFNETMASK: 
234 *((struct sockaddr in *) &ifr-»ifr addr) = ia-»ia sockmask; 
235 break; 
/[*processing for SIOCSTFDSTADDR COmmand (Figure 6.21) */ 
254 case SIOCSIFBRDADDR: 
255 if ((ifp-»if flags & IFF BROADCAST) == 0) 
256 return (EINVAL); 
257 ia-»ia, broadaddr = *(struct sockaddr in *) &ifr-»ifr broadaddr; 
258 break; . 
tn.c 


图 6-23 pin control: 处 理 


220-235 将 单 播 地 址 、 广 播 地址 、 目 的 地 址 或 者 网 络 掩 码 复制 到 ifreg 结 构 。 只 有 网 络 接 
口 支持 广播 ， 广 播 地 址 才 有 效 ; 并 且 只 有 点 对 点 接口 ， 目 的 地 址 才 有 效 。 
254-258 仅 当 接口 支持 广播 ， 才 从 结构 ifreg 中 复制 广播 地 址 。 


6.6.9 每 个 接口 多 个 IP 地 址 


SIOCGxxx 和 SIOCSxxx 命 令 只 操作 与 一 个 接口 关联 的 第 一 个 IP 地 址 一 一 在 ijn_control 
开头 的 循环 找到 的 第 一 个 地 址 (图 6-25)。 为 支持 每 个 接口 的 多 个 IP 地 址 ， 必 须 用 
SIOCAIFADDR 命 令 指派 和 配置 其 他 的 地 址 。 实 际 上 ，SIOCAIFADDR 能 完成 所 有 SIOCGxxx 
和 SIOCSxxx 命 令 能 完成 的 操作 。 程 序 ifconfig 使 用 SIOCAIFADDR 来 配置 一 个 接口 的 所 有 
地 址 信息 。 

如 前 所 述 ， 每 个 接口 有 多 个 地 址 便于 在 主机 或 网 络 改 号 时 过 渡 。 一 个 容错 软件 系统 可 能 
使 用 这 个 特性 来 准许 一 个 备份 系统 充当 一 -个 故障 系统 的 IP 地 址 。 

Net/3 的 i1fconfig 程 序 的 -alias 选 项 将 存放 在 一 个 jn_aliasreq 中 的 其 他 地 址 的 相关 
计 息 传递 给 内 核 ， 如 图 6-24 所 示 。 i 
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59 struct in aliasreq ( in var.h 
60 char ifra, name[IFNAMSIZ]; /* interface name, e.g. "en0" */ 
61 Struct sockaddr in ifra addr; 
62 struct sockaddr in ifra broadaddr; 
63 #define ifra dstaddr ifra broadaddr 
64 Struct sockaddr in ifra mask; 
65 ): 
in, var.h 


图 6-24 结构 in_aliasreq 


59-65 注意 ， 不 像 结 构 1freq， 在 结构 in_aliasreq 中 没有 定义 联合 。 在 一 个 单独 的 
ioct1 调 用 中 可 以 为 SIOCAIFADDR 指 定 地 址 、 广 播 地 址 和 掩 码 。 

SIOCAIFADDR 增 加 一 个 新 地 址 或 修改 一 个 已 存在 地 址 的 相关 信息 。SIOCDIFADDR 删 除 
匹配 的 IP 地 址 的 ijn_ifadqdr 结 构 。 图 6-25 显 示 命 令 SIOCAIFADDR 和 SIOCDIFADDR 的 前 提 
条 件 处 理 ， 它 假设 在 in_control( 图 6-13) 开 头 的 循环 已 经 将 ia 设置 为 指向 与 
ifra_name( 如 果 存 在 ) 指 定 的 接口 关联 的 第 一 个 了 下地 址 。 


in.c 
154 case SIOCAIFADDR: 
155 case SIOCDIFADDR: 
156 if (ifra-»ifra addr.sin family == AF INET) 
157 for (oia = ia; ia; ia = ia-»ia next) ( 
158 if (ia-»ia ifp == ifp && 
159 ia-»ia, addr.sin, addr.s, addr == 
160 ifra-»ifra addr.sin addr.s addr) 
161 break; 
162 } 
163 if (cmd == SIOCDIFADDR && ia -- 0) 
164 return (EADDRNOTAVAIL); 
165 /* FALLTHROUGH to Figure 6.14 */ inc 


图 6-25 win control: 添加 和 删除 地 址 


154-165 因为 SIOCDIFADDR 代 码 只 查看 *ifra 的 前 两 个 成 员 ， 图 6-25 所 示 的 代码 用 于 处 
理 SIOCAIFADDR( 当 ifra 指 向 一 个 jn_aliasreq 结 构 时 ) 和 SIOCDIFADDR( 当 ifra 指 疝 一 
个 ifreq 结 构 时 )。 结 构 in_aliasreq 和 ifreg 的 前 两 个 成 员 是 一 样 的 。 

对 于 这 两 个 命令 ，in_control 开 头 的 循环 启动 for 循 环 不 断 地 查找 与 1fra- 
>ifra_addr 指 定 的 耳 地 址 相同 的 in_ifadadr 结 构 。 对 于 删除 命令 ， 如 果 地 址 没有 找到 ， 则 
返回 EADDRNOTAVAIL。 

在 这 个 处 理 删 除 命令 的 循环 和 检验 后 ， 控 制 落 到 我 们 在 图 6-14 中 讨论 的 代码 之 外 。 对 于 
添加 命令 ， 图 6-14 的 代码 车 找 不 到 一 个 与 in_aliasreqg 结 构 中 地 址 匹配 的 地 址 ， 就 分 配 一 个 
新 in_ifaddr 结 构 。 


6.6.10 ”附加 IP 地 址 : SIOCAIFADDR 


这 时 ia 指 向 一 个 新 的 ijn._ifagqqdr 结 构 或 一 个 包含 与 请 求 地 址 匹配 的 IP 地 址 的 旧 
in_ifaddr 结 构 。SIOCAIFADDR 的 处 理 显示 在 图 6-26 中 。 
266-277 ”因为 SIOCAIFADDR 能 创建 一 个 新 地 址 或 修改 一 个 已 存在 地 址 的 相关 信息 ， 标 志 
maskIsNew 和 hostIsNew 跟 踪 变化 的 情况 。 这 样 ， 在 这 个 函数 结束 上 时， 如果 必 要 ， 能 更 新 


路 由 。 
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266 case SIOCAIFADDR: mc 

267 maskIsNew - 0; 

268 hostIsNew = 1; 

269 error - 0; 

270 if (ia-»ia addr.sin family -- AF INET) ( 

271 if (ifra-»ifra addr.sin len == 0) ( 

272 ifra-»ifra addr = ia-»ia addr; 

273 hostIsNew = 0; 

274 ) else if (ifra-»ifra, addr.sin addr.s addr == 

275 ia-»ia addr.sin  addr.s addr) 

276 hostIsNew - 0; 

277 } 

278 if (ifra->ifra mask.sin len) ( 

279 in ifscrub(ifp, ia); 

280 ia-»ia sockmask = ifra--ifra mask; 

281 ia-»ia subnetmask = 

282 ntohl(ia-»ia sockmask.sin, addr.s, addr); 

283 maskIsNew - 1; 

284 } 

285 if ((ifp-»if flags & IFF_POINTOPOINT) && 

286 (ifra-»ifra, dstaddr.sin, family == AF INET)) ( 

287 in ifscrub(ifp, ia); 

288 ia-»ia dstaddr = ifra-»ifra dstaddr; 

289 maskIsNew = 1; /* We lie; but the effect's the same */ 

290 } 

291 if (ifra-»ifra addr.sin family == AF INET && 

292 (hostIsNew || maskIsNew)) 

293 error = in ifinit(ifp, ia, &ifra-»ifra addr, 0); 

294 if ((ifp-»if flags & IFF BROADCAST) && 

295 (ifra-»ifra, broadaddr.sin family == AF, INET)) 

296 ia-»ia broadaddr = ifra-»ifra broadaddr; 

297 return (error); . 
n.c 


图 6-26 #tin_control: SIOCAIFADDR 处 理 


代码 在 默认 方式 下 取 一 个 新 的 下 地 址 指派 给 接口 (hostIsNew 以 1 开始 }。 如 果 新 地 址 的 长 
度 为 0，in_control 将 当前 地 址 复制 到 请 求 中 ， 并 将 hostIsNew 修 改 为 0。 如 果 长 度 不 是 0， 
并 且 新 地 址 与 老 地 址 匹配 ， 则 这 个 请 求 不 包含 一 个 新 地 址 ， 并 且 hostIsNew 被 设置 为 0。 
278-284 如果 在 这 个 请 求 中 指定 一 个 网 络 掩 码 ， 则 任何 使 用 此 当前 地 址 的 路 由 被 忽略 ， 并 
且 in_control 安 装 此 新 掩 码 。 

285-290 ”如 果 接 口 是 一 个 点 对 点 接口 ， 并 且 此 请 求 包括 一 个 新 目的 地 址 ， 则 in_scrup 忽 
略 任何 使 用 此 地 址 的 路 由 ， 新 目的 地 址 被 安装 ， 并 且 maskIsNew 被 设置 为 1， 以 强制 调用 
in_ifinit 来 重 配置 接口 。 

291-297 如 果 配 置 了 一 个 新 地 址 或 指派 了 一 个 新 掩 码 ， 则 in_ifinit 作 适当 的 修改 来 支持 
新 的 配置 (图 6-17)。 注 意 ，in_ifinitc 的 最 后 一 个 参数 为 0。 这 表示 已 注意 到 这 一 点 ， 不 必 刷 
新 所 有 路 由 。 最 后 ， 如 果 接 口 支持 广播 ， 则 从 in_aliasreqg 结 构 复 制 广播 地 址 。 


6.6.11 删除 I|P 地 址 : SIOCDIFADDR 


命令 SIOCDIFRADDR 从 一 个 接口 删除 IP 地 址 ， 如 图 6-27 所 示 。 记 住 ，ia 指 向 要 被 删除 的 
in_ifaddr 结 构 ( 即 ， 与 请 求 匹配 的 )。 
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298 case SIOCDIFADDR: m.c 

299 in ifscrub(ifp, ia); 

300 if ((ifa = ifp-»if addrlist) == (struct ifaddr *) ia) 

301 /* ia is the first address in the list */ 

302 ifp-»if, addrlist = ifa-»ifa next; 

303 else ( 

304 /* ia is *not* the first address in the list */ 

305 while (ifa-»ifa next && 

306 (ifa-»ifa next !- (struct ifaddr *) ia)) 

307 ifa = ifa-»ifa next; 

308 if (ifa-»ifa next) 

309 ifa-»ifa next = ((struct ifaddr *) ia)-»ifa next; 

310 else 

311 printf("Couldn't unlink inifaddr from ifpMn"); 

312 } 

313 oia = ia; 

314 if (oia == (ia = in ifaddr)) 

315 in ifaddr = ia-»ia next; 

316 else ( 

317 while (ia-»ia, next && (ia-»ia next != oia)) 

318 ia - ia-»ia next; 

319 if (ia-»ia next) 

320 ia-»ia next = oia-»ia next; 

321 else 

322 printf("Didn't unlink inifadr from list Win"); 

323 J 

324 IFAFREE((&oia-»ia ifa)); 

325 break; ， 
n.c 





图 6-27 in control: 删除 地 址 


298-323 ”前提 条 件 处 理 代码 将 ia 指向 要 删除 的 地 址 。in_ifscrub 删 除 任何 与 此 地 址 关联 
的 路 由 。 第 一 个 if 删除 接口 地 址 列表 的 结构 。 第 二 个 1 删除 来 自 Internet 地 址 列表 
(in_ifaddr) 的 结构 。 

324-325 IFAFREE 只 在 引用 计数 降 到 0 时 才 释 放 此 结构 。 


其 他 引用 可 能 来 自 路 由 表 中 的 各 项 。 


6.7 接口 oct1 处 理 | 


我 们 现在 查看 当 一 个 地 址 被 分 配给 接口 时 的 专用 ioct1 处 理 ， 对 于 我 们 的 每 个 例子 接口 ， 
这 个 处 理 分 别 在 函数 1eioctl、 slioct1 和 1loioct1 中 。 

in_ifinit 通 过 图 6-16 中 的 SIOCSIFADDR 代 码 和 图 6-26 中 的 SIOCAIFADDR 代 码 调 用 。 
in_ifinit 总 是 通过 接口 的 1f_ioct1i 函 数 发 送 SIOCSIFADDR 命 令 ( 图 6-17)。 


6.7.1 leioct1 函 数 


图 4-31 显 示 了 LANCE 驱 动 程序 的 SIOCSIFFLAGS 命 令 的 处 理 。 图 6-28 显 示 了 
SIOCSIFADDR 命 令 的 处 理 。 
614-637 在 处 理 命令 前 ，data 转 换 成 一 个 ifaddr 结 构 指 针 ， 并 且 ifp->if_unit 为 此 请 
求 选择 相应 的 le_softc 结 构 。 

leinit 将 接口 标志 为 启动 并 初始 化 硬件 。 对 于 Internet 地 址 ，IP 地 址 保存 在 arpcom 结 构 
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中 ， 并 且 为 此 地 址 发 送 一 个 免费 ARP。 免 费 ARP 在 21.5 节 和 卷 1 的 4.7 节 中 讨论 。 
未 识别 命令 
627-677 对 于 未 识别 命令 ， 返 回 EINVAL。 








- - if_le.c 
614 leioctl(ifp, cmd, data) 
615 struct ifnet *ifp; 
616 int cmd; 
617 caddr t data; 
618 ( 
619 struct ifaddr *ifa - (struct ifaddr *) data; 
620 struct le, softc *le = &le softc[ifp-»if unit]; 
621 struct leregl *lerl = le-»sc r1; 
622 int S = Splimp(), error = 0; 
623 switch (cmd) ( 
624 case SIOCSIFADDR: 
625 ifp-»if flags |= IFF UP; 
626 switch (ifa-»ifa addr-»sa, family) ( 
627 case AF INET: 
628 leinit(ifp-»if unit); /* before arpwhohas */ 
629 ((struct arpcom *) ifp)-»ac. ipaddr = 
630 IA, SIN(ifa)-»sin, addr; 
631 arpwhohas((struct arpcom *) ifp, &IA SIN(ifa)-»sin addr); 
632 break; 
633 default: 
634 leinit(ifp-»if unit); 
635 break; 
636 H 
637 break; 

/[*SIOCSIFFLAGS COMMAND (Figure 4.31) */ 
672 default: 
673 error - EINVAL; 
674 ) 
675 spix(s); 
676 return (error); 
677 ) 
if. le.c 
图 6-28 M% leioctl 
6.7.2 slioct1i1 函 数 
函数 slioctl1( 图 6-29) 为 SLIP 设 备 驱 动 器 处 理 命令 SIOCSIFADDR 和 8STOCSITEFDSTRDDR。 

653 int if slc 
654 slioctl(ifp, cmd, data) 
655 struct ifnet *ifp; 
656 int cmd; 
$57 caddr t data; * 
658 ( 
659 struct ifaddr *ifa = (struct ifaddr *) data; 
660 struct ifreq *ifr; 
661 int s = sSplimp(), error = 0; 
662 switch (cmd) ( 


图 6-29 gH Sslioctld: 命令 SIOCSIFADDR 和 SIOCSIFDSTADDR 
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663 case SIOCSIFADDR: 

664 if (ifa->ifa addr-»sa, family == AF INET) 
665 ifp-»if, flags |- IFF. UP; 

666 else 

667 error - EAFNOSUPPORT; 

668 break; 

669 case SIOCSIFDSTADDR: 

670 if (ifa-»ifa addr-»sa family !- AF, INET) 
671 error - EAFNOSUPPORT; 

672 break; 


/*SIOCADDMULTI and SIOCDELMULTI commands (Figure 12.29)*/ 


688 default: 

689 error - EINVAL; 

690 ) 

691 splx (s); 

692 return (error); 
Moo — ip sie 


图 6-29 (£$) 


663-672 对 于 这 两 个 命令 ， 如 果 地 址 不 是 一 个 IP 地 址 ， 则 返回 ERAFNOSUPPORT。 
SIOCSIFADDR 命 令 设 置 IFF_UP。 

未 识别 命令 
688-693 对 于 未 识别 命令 ， 返 回 EINVAL。 


6.7.3 loioctli&i 


函数 1oioct1 和 它 的 SIOCSIFRADDR 命 令 的 实现 显示 在 图 6-30 中 。 
if. loop.c 





135 int 
136 loioctl(ifp, cmd, data) 
137 struct ifnet *ifp; 


138 int cmd; 

139 caddr t data; 

140 ( 

141 struct ifaddr *ifa; 

142 struct ifreq *ifr; 

143 int error - 0; 7 

144 switch (cmd) { 

145 case SIOCSIFADDR: 

146 ifp->if_flags i= IFF_UP; 

147 ifa = (struct ifaddr *) data; 

148 /* 

149 * Everything else is done at a higher level. 
150 */ : 
151 break; 


图 6-30 函数 1oioct1: 命令 SIOCSIFADDR 
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167 default: 

168 error - EINVAL; 
169 ) 

170 return (error); 

171 j 





if loop.c 
图 6-30 (£X) 
135-151 对 于 Internet 地 址 ，loioct1l 设 置 IFF_UP， 并 立即 返回 。 
未 识别 命令 
167-171 对 于 未 识别 命令 ， 返 回 EINVAL。 
注意 ， 对 于 所 有 这 三 个 例子 驱动 程序 ， 指 派 一 个 地 址 会 导致 接口 被 标记 为 启用 (IFF_UP)。 


6.8 ”Internet 实 用 函数 


图 6-31 列 出 了 几 个 操作 Internet 地 址 或 依赖 于 图 6-5 中 ifnet 结 构 的 函数 ， 它 们 通常 用 于 发 
现 不 能 单 从 32 bit IP 地 址 中 获得 的 子 网 信息 。 这 些 函 数 的 实现 主要 包括 数据 结构 的 转换 和 操作 
位 掩 码 。 读 者 在 netinet /in.c 中 可 以 找到 这 些 函 数 。 


in netof 返回 in 中 的 网 络 和 子 网 部 分 。 主 机 比特 被 设置 为 0。 对 于 DD 类 地 址 ， 返 回 DD 类 首 标 比 
特 和 用 于 多 播 组 的 0 比特 
u long in netof (struct in addr in); 
NU 
Nu 


如 果 地 址 为 in 的 IP 分 组 有 资格 转发 ， 则 返回 真 。D 类 和 E 类 地 址 、 环 问 网 络 地 址 和 有 
in_broadcast 

























一 个 为 0 网 络 号 的 地 址 不 能 转发 
int in canforward(struct in addr in); 


如 果 主 机 i 被 定位 在 一 个 直接 连接 的 网 络 ， 则 返回 真 。 如 果 全 局 变量 subnetsarelocal 
非 0， 则 所 有 直接 连接 的 网 络 的 子 网 也 被 认为 是 本 地 的 

int in localaddrí(struct in_addr in); 
Rine hipt mR LL BEAR EX S RE, WERL AL 


int in broadcast(struct in_addr in, 















struct ifnet *ifp); 


图 6-31 Internet Hb ht ERI 


NetU2 在 in_canforward 中 有 一 个 错误 : cct ARM. RAKSA 
NetU2 系 统 被 配置 为 只 承认 一 个 环 回 地 址 ， 如 127.0.0.1，Net2 系 统 常 沿 着 默认 路 由 在 
环 回 网 络 中 转发 其 他 地 址 (例如 127.0.0.2)。 

一 个 到 127.0.0.2 的 telnet 可 能 不 是 你 所 希望 的 ! (习题 6.6) 


6.9 ifnet 实 用 函数 


几 个 查找 数据 结构 的 函数 显示 在 图 6-5 中 。 列 于 图 6-32 的 函数 接受 任何 协议 族 类 的 地 址 ， 
因为 它们 的 参数 是 指向 一 个 sockaddr 结 构 的 指针 ， 这 个 结构 中 包含 有 地 址 族 类 。 与 图 6-31 
中 的 函数 比较 ， 在 那里 的 每 个 函数 将 32 bit 的 IP 地 址 作为 一 个 参数 。 这 些 函 数 定义 在 文件 
net/if.c 中 。 
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ifa ifwithaddr 在 ifnet 列 表 中 查找 有 一 个 单 播 或 广播 地 址 addr 的 接口 。 返 回 一 个 指向 这 个 
匹配 的 1faddr 结 构 的 指针 ; 或 者 若 设 有 找到 ， 则 返回 一 个 空 指针 
struct ifaddr * ifa ifwithaddr(struct sockaddr *addr); 
在 ifnet 列 表 中 查找 目的 地 址 为 adadr 的 接口 。 返 回 -~ 个 指向 这 个 匹配 的 
ifaddr 结 构 的 指针 ; 或 者 若 设 有 找到 ， 则 返回 一 个 空 指针 

struct ifaddr * ifa ifwithdstaddr (struct sockaddr *addr); 
ifa ifwithnet 在 ifnet 列 表 中 查找 与 addr 同 一 网 络 的 地 址 。 返 回 匹配 的 1fadar 结 构 的 指 
针 ; 或 者 若 设 有 找到 ， 则 返回 一 个 空 指针 

struct ifaddr * ifa ifwithnet(struct sockaddr *addr); 
在 ifnet 列 表 中 查找 与 add 具 有 相同 地 址 族 类 的 第 一 个 地 址 。 返 回 匹 配 的 
ifadqdr 结 构 的 指针 ; 或 者 若 设 有 找到 ， 则 返回 一 个 空 指针 
struct ifaddr * ifa ifwithaf(struct sockaddr *addr); 
在 疙 列表 中 查找 与 addr 匹 配 的 地 址 。 用 于 精确 匹配 的 引用 次 序 为 : 一 个 点 对 
点 链 路 上 的 目的 地 址 、 一 个 同一 网 络 上 的 地 址 和 一 个 在 同一 地 址 族 类 的 地 址 ， 
则 返回 匹配 的 ifaddr 结 构 的 指针 ; 或 者 若 没 有 找到 ， 则 返回 一 个 空 指针 
struct ifaddr * ifaof ifpforaddr(struct sockaddr *addr, 
struct ifnet *ifp); 
返回 目的 地 址 (dst) 和 网 关 地 址 (gateway ) 指定 的 相应 的 本 地 接口 的 ifaddar 结 
构 的 指针 

struct ifaddr * ifa ifwithroute(int flags, struct 
sockaddr *dst, struct sockaddr *gateway); 


ifunit 返回 与 name 关联 的 ifnet 结 构 的 指针 
struct ifnet * ifunit(char *name); 























ifa ifwithdstaddr 













ifa ifwithaf 






















ifaof ifpforaddr 









ifa ifwithroute 













图 6-32 ifnet 实 用 国 数 


6.10 小结 


在 本 章 中 ， 我 们 概述 了 了 P 编 址 机 制 ， 并 且说 明了 JIP 专 用 的 接口 地 址 结构 和 协议 地 址 结构 : 
结构 in_ifaddr 和 sockaddr_in。 

我 们 讨论 了 如 何 通过 程序 ifconfig 和 ioct1l 接 口 命令 来 配置 接口 的 下 专用 信息 。 

最 后 ， 我 们 总 结 了 几 个 操作 IP 地 址 和 查找 接口 数据 结构 的 实用 函数 。 


习题 : 


6.1 你 认为 为 什么 在 结构 sockadar_in 中 的 sin_addr 最 初 定义 为 一 个 结构 ? 

6.2 ifunit("s10") 返 回 的 指针 指向 图 6-5 中 的 哪个 结构 ? 

6.3 当 IP 地 址 已 经 包含 在 接 日 的 地 址 列表 中 的 一 个 ifadar 结 构 中 时 ， 为 什么 还 要 在 
ac_ipaddr 中 各 份 ? 

6.4 你 认为 为 什么 IP 接 口 地 址 要 通过 一 个 UDP 插 口 而 不 是 一 个 原始 的 IP 插 口 来 访问 ?. 

65 为 什么 in_socktrim 要 修改 sin_len 来 匹配 掩 码 的 长 度 ， 而 不 使 用 一 个 
sockaddr_in 结 构 的 标准 长 度 ? 

6.6 当 一 个 telnet 127.0.0.2 命 令 中 的 连接 请 求 部 分 被 一 个 Net/2 系 统 错误 地 转发 ， 
并 且 最 后 被 认可 ， 同 时 还 被 默认 路 由 上 的 一 个 系统 所 接收 时 ， 会 发 生 什么 情况 ? 


88728 域 和 协议 
7.1 引言 


在 本 章 中 ， 我 们 讨论 支持 同时 操作 多 个 网 络 协议 的 NeV3 数 据 结构 。 用 Internet 协 议 来 说 明 
在 系统 初始 化 时 这 些 数据 结构 的 构造 和 初始 化 。 本 章 为 我 们 讨论 耳 协 议 处 理 层 提供 必要 的 背 
景 资料 ， 下 协议 处 理 层 在 第 8 章 讨 论 。 

Net/3 组 把 协议 关联 到 一 个 域 中 ， 并 且 用 一 个 协议 族 常量 来 标识 每 个 域 。Net/3 还 通过 所 使 
用 的 编 址 方法 将 协议 分 组 。 回忆 图 3-19， 地 址 族 也 有 标识 常量 。 当 前 ， 在 一 个 域 中 的 每 个 协 
议 使 用 同类 地 址 ， 并 且 每 种 地 址 只 被 一 个 域 使 用 。 作 为 结果 ， 一 个 域 能 通过 它 的 协议 族 或 地 
址 族 常 量 唯 一 标识 。 图 7-1 列 出 了 我 们 讨论 的 协议 和 常量 。 


PF INET AF INET Internet 
PF OSI, PF ISO AF OSI, AF ISO OSI 


PF LOCAL, PF UNIX | AF LOCAL, AF UNIX 本 地 IPC(Unix) 
PF_ROUTE AF_ROUTE 路 由 表 
n/a AF LINK 链 路 层 (例如 以 太 网 ) 





图 7-1 公共 的 协议 和 地 址 族 常量 


PF_LOCAL 和 AF_LOCAL 是 支持 同一 主机 上 进程 间 通 信 的 协议 的 主要 标识 ， 它 们 
是 POSIX.12 标 准 的 一 部 分 。 在 Net/3 以 前 ， 用 PF_UNIX 和 AF_UNIX 标 识 这 些 协 议 。 
在 NeU3 中 保留 UNIX 常 量 ， 用 于 向 后 兼容 ， 并 且 要 在 本 书 中 讨论 。 


PF_UNIX 域 支持 在 一 个 单独 的 Unix 主 机 上 的 进程 间 通 信 。 细 节 见 [Stevens 1990]. 
PF_ROUTE 域 支持 在 一 个 进程 和 内 核 中 路 由 软件 间 的 通信 (第 18 章 )。 我 们 偶尔 引用 PF_OSI 协 
议 ， 它 作为 Net/3 特 性 仅 支持 OSI 协 议 ， 但 我 们 不 讨论 它们 的 细节 。 大 多 数 讨 论 是 关于 
PF_INET 协 议 的 。 


7.2 代码 介绍 
本 章 涉及 两 个 头 文件 和 两 个 C 文 件 。 图 7-2 描 述 了 这 4 个 文件 。 
netinet/domain.h domain 结 构 定义 
netinet/protosw.h protosw 结 构 定 义 
netinet/in proto.c IP aomain 和 protosw 结 构 
kern/uipc, domain.c | 初始 化 和 查找 函数 


图 7-2 在 本 章 中 讨论 的 文件 
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7.2.4 全 局 变量 
图 7-3 描 述 了 几 个 重要 的 全 局 数据 结构 和 系统 参数 ， 它 们 在 本 章 中 讨论 ， 并 经 常 在 Net/3 中 
引用 。 
LET. 
domain struct domain * 链接 的 域 列 表 
inetdomain struct domain Internet 协 议 的 4omain 结 构 
inetsw struct protosw(] Internet 协 议 的 protosw 结 构 数 组 
max linkhdr i 见 图 7-17 
max protohdr i JL 537-17 
max hdr i 见 图 7-17 
max datalen i 见 图 7-17 
图 7-3 在 本 章 中 介绍 的 全 局 变量 
7.2.2 统计 量 


除了 图 7-4 显 示 的 由 函数 ip_init 分 配 和 初始 化 的 统计 量 表 ， 本 章 讨 论 的 代码 没有 收集 其 
他 统计 量 。 通 过 一 个 内 核 调试 工具 是 查看 这 个 表 的 唯一 方法 。 





| 三维 数组 ， 用 来 统计 在 任意 两 个 接口 间 传送 的 分 组 数 


图 7-4 在 本 章 中 收集 的 统计 量 


7.3 domain 结构 


一 个 协议 域 由 一 个 图 7-5 所 示 的 Qomain 结 构 来 表示 。 








domain.h 
42 struct domain { 
43 int dom family; /* AF xxx */ 
44 char *dom name; 
45 void (*dom init) /* initialize domain data structures */ 
46 (void); 
47 int (*dom externalize)  /* externalize access rights */ 
48 (struct mbuf *); 
49 int (*dom dispose) /* dispose of internalized rights */ 
50 (struct mbuf *); 
51 struct protosw *dom protosw, *dom protoswNPROTOSW; 
52 struct domain *dom next; 
53 int (*dom rtattach) /* initialize routing table */ 
54 (void **, int); 
55 int dom rtoffset; /* an arg to rtattach, in bits */ 
56 int dom maxrtkey; /* for routing layer */ 
2 domain.h 
图 7-5 结构 domain 的 定义 
42-57 dom_family 是 一 个 地 址 族 常 量 (例如 AF_INET)， 它 指示 在 此 域 中 协议 使 用 的 编 址 


方式 。dom_name 是 此 域 的 一 个 文本 名 称 (例如 “internet”)。 


148 TCP/IP3E& 3X2: ZA 


除了 程序 fstat (1) 在 它 格 式 化 插口 信息 时 使 用 dom_name 外 ,成 员 dom_name 

不 被 Net/3 内 核 的 任何 部 分 访问 。 

dom_init 指 向 初始 化 此 域 的 函数 。dom_externalize 和 dom_dispose 指 向 那些 管 
理 通 过 此 域内 通信 路 径 发 送 的 访问 权限 的 函数 。Unix 域 实现 这 个 特性 在 进程 间 传 递 文件 描述 
符 。Internet 域 不 实现 访问 权限 。 | 

dom_protosw 和 dom_protoswNPROTOSW 指 向 一 个 protosw 结 构 的 数组 的 起 始 和 结 
束 。dom_next 指 向 在 一 个 内 核 支持 的 域 链表 中 的 下 一 个 域 。 包 含 所 有 域 的 链表 通过 全 局 指 
针 domains 来 访问 。 

接 下 来 的 三 个 成 员 ，dom_rtattach、dom_rtoffset 和 dom_maxrtkey 保 存 此 域 的 
路 由 信息 。 它 们 在 第 18 章 讨论 。 

图 7-6 显 示 了 一 个 aomains 列 表 的 例子 。 


domains : 





unixdomain: 








inetdomain: routedomain: 





isodomain: 


图 7-6 domains 列 表 


7.4 protosw 结 构 


在 编译 期 闻 ，Net3 为 内 核 中 的 每 个 协议 分 配 一 个 protosw 结 构 并 初始 化 ， 同 时 将 在 一 个 域 
中 的 所 有 协议 的 这 个 结构 组 织 到 一 个 数组 中 。 每 个 domain 结 构 引 用 相应 的 protosw 结 构 数 组 。 
一 个 内 核 可 以 通过 提供 多 个 protosw 项 为 同一 协议 提供 多 个 接口 。Protosw 结 构 的 定义 见 图 7-7。 





protosw.h 
57 struct protosw { 
58 short pr. type; /* see (Figure 7.8) */ 
59 struct domain *pr. domain; /* domain protocol a member of */ 
60 short pr.protocol; /* protocol number */ 
61 short pr. flags; /* see Figure 7.9 */ 
62 /* protocol-protocol hooks */ 
63 void (*pr input) (0; /* input to protocol (from below) */ 
64 int (*pr output) (0; /* output to protocol (from above) */ 
65 void (*pr ctlinput) (); /* control input (from below) */ 
66 int (*pr ctloutput) (); /* control output (from above) */ 
67 /* user-protocol hook */ 
68 int (*pr usrreq) ()5; /* user request from process */ 
69 /* utility hooks */ 
70 void (*pr init) (); '/* initialization hook */ 
71 void (*pr fasttimo) (); /*. fast timeout (200ms) */ 
72 void (*pr slowtimo) (); /* slow timeout (500ms) */ 
73 void (*pr drain) (0; /* flush any excess space possible */ 
74 int (*pr.sysctl) (0; /* sysctl for protocol */ 
75 ); 
protosw.h 





| 图 7-7 protosw 结 构 的 定义 
57-61 ”此 结构 中 的 前 4 个 成 员 用 来 标识 和 表征 协议 。pr_type 指 示 协 议 的 通信 语义 。 图 7-8 
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列 出 了 pr_type 可 能 的 值 和 对 应 的 Internet 协 议 。 


SOCK STREAM 可 靠 的 双向 字 节 流 服务 TCP 


SOCK_DGRAM 最 好 的 运输 层 数 据 报 服 务 UDP 


SOCK_RAW 最 好 的 网 络 层 数 据 报 服务 ICMP，IGMP， 原 始 IP 
SOCK .RDM 可 靠 的 数据 报 服务 (未 实现 ) n/a 
SOCK SEQPACKET 可 靠 的 双向 记录 流 服务 n/a 


图 7-8 pr_type 指 明 协 议 的 语义 


pr_domain 指 向 相关 的 doma in 结 构 ，pr_protocol 为 域 中 协议 的 编号 ，pr_flags 
标识 协议 的 附加 特征 。 图 7-9 列 出 了 pr_flags 的 可 能 值 。 


pr. flags 


PR ATOMIC 每 个 进程 请 求 映 射 为 一 个 单个 的 协议 请 求 
PR ADDR 协议 在 每 个 数据 报 中 都 传递 地 址 





PR_CONNREQUIRED 协议 是 面向 连接 的 
PR_WANTRCVD 当 一 个 进程 接收 到 数据 时 通知 协议 
PR_RIGHTS 协议 支持 访问 权限 





图 7-9 pr_flags 的 值 


如 果 一 个 协议 支持 PR_ADDR， 必 须 也 支持 PR_ATOMIC。PR_ADDR 和 和 
PR CONNREQUIREDAX Z Jf $j, 

当 设 置 了 PR_WRANTRCVD， 并 当 插 口 层 将 插口 接收 缓存 中 的 数据 传递 给 一 个 进程 
时 ( 即 当 在 接收 绕 存 中 有 更 多 空间 可 用 时 )， 它 通知 协议 层 。 

PR_RIGHTS 指 示 访 问 权 限 控制 报 文 能 通过 连接 来 传递 。 访 问 权 限 要 求 内 核 中 的 
其 他 支持 来 确保 在 接收 进程 没有 销毁 报 文 时 能 完成 正确 的 清除 工作 。 仅 Unix 域 支持 
访问 权限 ， 在 那里 它们 用 来 在 进程 间 传 递 描述 符 。 


图 7-10 所 示 的 是 协议 类 型 、 协 议 标 志和 协议 语义 间 的 关系 。 


是 天 有 记 


Internet 其 他 

















COC 一 





SOCK_SEQPACKET | EM 


SOCK. DGRAM 
SOCK, RAW 





887-10 协议 特征 和 举例 


图 7-10 丰 包括 标 志 PR_WANTRCVD 和 PR_RIGHTS 。 对 于 可 靠 的 面向 连接 的 协议 ， 
PR_WANTRCVD 总 是 被 设置 。 
为 了 理解 Net/3 中 一 个 protosw 项 的 通信 语义 ， 我 们 必须 要 一 起 考虑 PRxxx 标 志 
pr_type。 在 图 7-10 中 ， 我 们 用 两 列 (“ 是 否 有 记录 边界 ”和 “可 靠 否 ”) 来 描述 由 pr_type 
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隐 式 指示 的 语义 。 图 7-10 显 示 了 可 靠 协议 的 三 种 类 型 : 
* 面向 连接 的 字 节 流 协议 ， 如 TCP 和 SPP( 源 于 XNS 协 议 族 )。 这 些 协 议 用 SOCK_STREAM 标 识 。 
。 有 记录 边界 的 面向 连接 的 流 协 议 用 SOCK_SEQPACKET 标 识 。 在 这 种 协议 类 型 中 ， 
PR_ATOMIC 指 示 记 录 是 否 由 每 个 输出 请 求 隐 式 地 指定 ， 或 者 显 式 地 通过 在 输出 中 设置 
标志 MSG_EOR 来 指定 。 
SPP 同 时 支持 语义 SOCK_STREAM 和 SOCK_SEQPACKET。 


“第 三 种 可 靠 协 议 提供 一 个 有 隐 式 记录 边界 的 面向 连接 服务 ， 它 由 SocK_RDM 标 识 。RDP 

不 保证 按照 记录 发 送 的 顺序 接收 记录 。RDP 在 [Partridge 1987] 中 讨论 并 在 RFC 115 

[Partridge and Hinden 1990] 中 被 描述 。 

两 种 不 可 靠 协 议 显 示 在 图 7-10 中 : 

。 一 个 运输 层 数 据 报 协议 ， 如 UDPP， 它 包括 复 用 和 检验 和 ， 由 SOCK_DGRAM 指 定 。 

。 一 个 网 络 层 数据 报 协 议 ， 如 ICMP， 它 由 SOCK_RAW 指 定 。 在 Net/3 中 ， 只 有 超级 用 户 进 

程 才能 创建 一 个 SOCK_RAW 插 口 (图 15-8)。 
62-68 ”接着 的 5 个 成 员 是 函数 指针 ， 用 来 提供 从 其 他 协议 对 此 协议 的 访问 。pr_input 处 理 
从 一 个 低层 协议 输入 的 数据 ，pr_output 处 理 从 一 个 高 层 协 议 输出 的 数据 ，pr_ctlinput 
处 理 来 自 下 层 的 控制 信息 ， 而 pr_ctloutput 处 理 来 自 上 层 的 控制 信息 。pr_ "srreq 处 理 
来 自 进程 的 所 有 通信 请 求 。 如 图 7-11 所 示 。 






pr usrreq 


“一 一 -一 -一 一 (例如 : read, write, 等 等 ) 









pr ctloutput 
(例如 : 插口 选项 ) 


pr, output 


(例如 : 路 由 域 输出 ) 










pr ctlinput 
(例如 : ICMP 错 误 ) 


pr. input 
(例如 : a 到达 TCP 分 组 ) 


~ 


图 7-11 一 个 协 议 的 5 个 主要 入口 点 
69-75 剩 下 的 5 个 成 员 是 协议 的 实用 函数 。pr_init 处 理 初始 化 。pr_fasttimo 和 
pr_slowtimo 分 别 每 200 ms 和 500 ms 被 调用 来 执行 周期 性 的 协议 函数 ， 如 更 新 重 传 定时 器 。 
pr_drain 在 内 存 缺 乏 时 被 n_reclaim 调 用 (图 2-13)。 它 请 求 协 议 释 放 尽 可 能 多 的 内 存 。 
pr_sysct1 为 sysct1(8) 命 令 提 供 一 个 接口 ， 一 种 修改 系统 范围 的 参数 的 方式 ， 如 允许 转发 
分 组 或 UDP 检验 和 计算 。 


7.5 IP 的 Qomain 和 protosw 结 构 


声明 所 有 协议 的 结构 somain 和 protosw， 并 进行 静态 初始 化 。 对 于 Internet 协 议 ， 
inetsw 数 组 包含 protosw 结 构 。 图 7-12 总 结 了 在 数组 inetsw 中 的 协议 信息 。 图 7-13 显 示 了 


7È R EAR 151 





Intemet 协 议 的 数组 定义 和 domain 结 构 的 定义 。 


Lee [eee oo 
0 



























Internet 协 议 


































IPPROTO_UDP SOCK_DGRAM 用 户 数据 报 协 议 

IPPROTO_TCP SOCK_STREAM 传输 控制 协议 

IPPROTO RAW SOCK RAW Internet JA iX (RRA) IP( 原 始 ) 
IPPROTO ICMP SOCK RAW Internet 控 制 报 文 协议 ICMP 
IPPROTO IGMP SOCK RAW Intemet 组 管理 协议 IGMP 
0 SOCK_RAW Internet 协 议 (原始 、 默 认 ) IP( 原 始 ) 





图 7-12 JInternet 域 协议 


39 struct protosw inetsw[] = m. proto.c 

40 ( 

41 (0, &inetdomain, 0, O0, 

42 0, ip output, 0, 0, 

43 0, 

44 ip init, 0, ip slowtimo, ip, drain, ip sysctl 

45 }, 

46 {SOCK_DGRAM, &inetdomain, IPPROTO UDP, PR ATOMIC | PR ,ADDR, 

47 udp input, 0, udp ctlinput, ip ctloutput, 

48 udp usrreq, 

49 udp.init, 0, 0, 0, udp sysctl 

50 }, 

51 (SOCK, STREAM, &inetdomain, IPPROTO TCP, PR, CONNREQUIRED | PR_WANTRCVD ， 

52 tcp_input, 0, tcp_etlinput, tcp.ctloutput, 

53 tcp.usrreq, 

54 tcp init, tcp fasttimo, tcp. slowtimo, tcp drain, 

55 }, 

56 (SOCK RAW, &inetdomain, IPPROTO RAW, PR, ATOMIC | PR ADDR, 

57 rip input, rip output, 0, rip ctloutput, 

58 rip usrreq, 

59 0,0, 0, 0, 

60 ). 

51 {SOCK_RAW, &inetdomain, IPPROTO ICMP, PR, ATOMIC | PR ADDR, 

62 icmp input, rip output, O0, rip ctloutput, 

63 rip usrreq, 

64 0, 0, 0, 0, icmp sysctl 

65 3. 

66 (SOCK RAW, &inetdomain, IPPROTO IGMP, PR ATOMIC | PR ADDR, 

67 igmp input, rip output, 0, rip ctloutput, 

68 rip, usrreq, 

69 igmp init, igmp fasttimo, 0, O0, 

70 ). 

71 /* raw wildcard */ 

72 (SOCK RAW, &inetdomain, 0, PR ATOMIC | PR,.ADDR, 

73 rip input, rip output, 0, rip ctloutput, 

74 rip usrreq, 

75 rip init, 0, 0, O, 

76 3, 

77 ); 

78 struct domain inetdomain - 

79 (AF INET, "internet", 0, O, O, 

80 inetsw, &inetsw[sizeof(inetsw) / sizeof(inetsw[0])], 0, 

81 rn inithead, 32, sizeof(struct sockaddr. in)); : . 
tn proto.c 





图 7-13 Internet 的 domain 和 Protosw 结 构 
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39-77 在 inetsw 数 组 中 的 3 个 brotosw 结 构 提 供 对 IP 的 访问 。 第 一 个 : inetsw[t0], $r 
识 IP 的 管理 国 数 并 且 只 能 由 内 核 访 问 。 其 他 两 项 : inetsw[31 和 inetsw[6]， 除 了 
Pr_protocol 值 以 外 它们 是 一 样 的 ， 都 提供 到 IP 的 一 个 原始 接口 。inet sw[3] 处 理 接 收 到 
的 任何 未 识别 协议 的 分 组 。inetsw[6] 是 默认 的 原始 协议 ， 当 没有 找到 其 他 可 匹配 的 项 时 ， 
这 个 结构 由 函数 pffindproto 返 回 (7.6 节 )。 


在 NetU3 以 前 的 版 本 中 ， 通 过 inetsw[3] 传 输 不 带 卫 首部 的 分 组 ， 由 进程 负责 构 
造 正确 的 首部 。 由 内 核 通 过 inetsw[6] 传 输 带 IP 首 部 的 分 组 。4.3BSD Reno 引 入 了 
IP_HDRINCEL 播 口 选 项 (32.8 节 )， 这 样 在 inetsw[3] 和 inetsw[6] 之 间 的 区 别 就 不 . 
再 重要 了 。 


原始 接口 允许 一 个 进程 发 送 和 接收 不 涉及 运输 层 的 IP 分 组 。 原 始 接口 的 一 个 用 途 是 实现 
内 核 外 的 传输 协议 。 一 旦 这 个 协议 稳定 下 来 ， 就 能 移植 到 内 核 中 改进 它 的 性 能 和 对 其 他 进程 
的 可 用 性 。 另 一 个 用 途 就 是 作为 诊断 工具 ， 如 traceroute， 它 使 用 原始 IP 接 口 来 直接 访问 
IP。 第 32 音 讨论 原始 IP 接 口 。 图 7-14 总 结 了 IP protosw 结 构 。 | 


pr_type SOCK_RAW IP 提 供 原 始 分 组 服务 | 

pr. domain &inetdomain &inetdomain 两 协议 都 是 Internet 域 的 一 部 分 

pr. protocol 0 IPPROTO RAWgBEO IPPROTO_RAW(255) 和 0 都 是 
预 留 的 (RFC 1700)， 并 且 不 应 在 
一 个 下 数据 报 中 出 现 

pr flags 0 PR ATOMIC/PR ADDR 插口 层 标志 ，IP 不 使 用 

pr_input null rip input 从 了 P、ICMP 或 IGMP 接 收 未 识 
别 的 数据 报 

pr_output ip output rip output 分 别 准备 并 发 送 数 据 报到 IP 和 
硬件 层 

pr ctlinput null null IP 不 使 用 

pr ctloutput null rip ctloutput 响应 来 自 进 程 的 配置 请 求 

pr-usrreq null rip usrreg 响应 来 自 进程 的 协议 请 求 

pr init ip init nullÓrip init ip_init 完 成 所 有 初始 化 

pr_fasttimo nuli null IP 不 使 用 

pr slowtimo ip .slowtimo null 用 于 IP 重 装 算法 的 慢 超时 

pr. drain ip drain nuii 如 果 可 能 ， 释 放 内 存 

pr.sysctl ip Sysctl null 修改 系统 范围 参数 





图 7-14 IP inetsw 的 条 且 


78-81 Intermet 协 议 的 domain 结 构 显 示 在 图 7-13 的 下 部 。Internet 域 使 用 AF_INET 风 格 编 址 ， 
文本 名 称 为 “internet”， 没有 初始 化 和 控制 报 文清 数 ， 它 的 protosw 结 构 在 inetsw 数 组 
中 。 . 

Internet 协 议 的 路 由 初始 化 函数 是 rn_inithead。 一 个 IP 地 址 的 最 大 有 效 位 数 为 32， 并 
且 一 个 Internet 选 路 键 的 大 小 为 一 个 sockaddr_in 结 构 的 大 小 (16 字 节 )。 


inetsw[3] 和 inetsw[6] 的 唯一 区 别 是 它们 的 pr_protocol 号 和 初始 化 函数 
rip_init， 它 仅 在 inetsw[6] 中 定义 ， 因 此 只 在 初始 化 期 间 被 调用 一 
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domaininitdWi4 


在 系统 初始 化 期 间 ( 图 3-23)， 内 核 调 用 aomaininit 来 链接 结构 aomain 和 protosw。 
domaininit 显 示 在 图 7-15 中 。 


- T : — uipc_domain.c 
37 /* simplifies code in domaininit */ 
38 #define ADDDOMAIN(x) CN 
39 extern struct domain , CONCAT(x,domain); V 
40 —CONCAT (x,domain.dom next) = domains; X 
41 domains = &, CONCAT(x,domain); X 
42 ) 
43 domaininit() 
44 ( 
45 struct domain *dp; 
46 struct protosw *pr; 
47 /* The C compiler usually defines unix. We don't want to get 
48 * confused with the unix argument to ADDDOMAIN 
49 */ 
50 &undef unix 
51 ADDDOMAIN (unix); 
52 ADDDOMAIN (route); 
53 ADDDOMAIN(inet); 
54 ADDDOMAIN(iso); 
55 for (dp - domains; dp; dp - dp-»dom next) ( 
56 if (dp-»dom init) 
57 (*dp-»dom init) (); . 
58 for (pr = dp--dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) 
59 if (pr-»pr init) 
60 | (*pr-»pr.init) (); 
61 } 
62 if (max linkhdr < 16) /* XXX */ 
63 max linkhdr = 16; 
64 max hdr = max linkhdr + max protohdr; 
65 max datalen - MHLEN - max hdr; 
66 timeout(pffasttimo, (void *) 0, 1); 
67 timeout(pfslowtimo, (void *) 0, 1); 
$8 ) uipc domain.c 





图 7-15 函数 Gomaininit 


37-42 ADDDOMAIN 宏 声明 并 链接 一 个 Gomain 结 构 。 例 如 ，ADDDOMAIN(unix) 展 开 为 : 


extern struct domain unixdomain; 
unixdomain.dom next = domains; 
domains = &unixdomain; 


宏 _CONCAT 定 义 在 sys/defs.h 中 ， 并 且 连 接 两 个 符号 名 。 例 如 _CONCAT 
(unix, domain)/f £unixdomain, 
43-54 domaininit 通 过 调用 ADDDOMAIN 为 每 个 支持 的 域 构造 域 列表 。 
因为 符号 unix 常 常 被 C 预 处 理 器 预定 义 ， 因 此 ，Net/3 在 这 里 显 式 地 取消 它 的 定 
义 ， 使 ADDDOMAIN 能 正确 工作 。 
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图 7-16 显 示 了 链接 的 结构 domain 和 protosw， 它 们 配置 在 内 核 中 来 支持 Internet、Unix 
和 OSI 协 议 族 。 


domains: 


isodomain: inetdomain: routedomain: unixdomain: 





图 7-16 初始 化 后 的 aomain 链 表 和 protosw 数 组 


55-61 两 个 嵌 套 的 for 循 环 查找 内 核 中 的 每 个 域 和 协议 ， 并 且 若 定义 了 初始 化 函数 
dom_init 和 pzr_init， 则 调用 它们 。 对 于 Internet 协 议 ， 调 用 下 面 的 函数 (图 7-13): 
ip_init, udp_init、 tcp_init、igmp_init 和 rip_init。 

62-65 在 domaininit 中 计算 这 些 参数 ， 用 来 控制 mbuf 中 分 组 的 格式 ， 以 避免 对 数据 的 额 
外 复制 。 在 协议 初始 化 期 间 设 置 了 max_1inkhdr 和 max_protohdr。 这 里 ，domaininit 
将 max_1inkhar 强 制 设置 为 一 个 下 限 16。16 字 节 用 于 给 带 有 4 字 节 边界 的 14 字 节 以 太 网 首部 
留 出 空间 。 图 7-17 和 图 7-18 列 出 了 这 些 参 数 和 典型 的 取 值 。 





max linkhdr 由 链 路 层 添加 的 最 大 字 节 数 
max protohdr 由 网 络 和 运输 层 添加 的 最 大 字 节 数 
max hdr max linkhdr + max protohdr 
max datalen 在 计算 了 链 路 和 协议 首部 后 的 分 组 首部 mubf 中 的 可 用 数据 字 节 数 
图 7-17 用 来 减少 协议 数据 复制 的 参数 
| 一 一 一 一 max_hdr 字 节 一 一 -一 
m hard 网 络 和 运 
emis 
28 字 节 16 字 节 407-45 44 字 节 
MHLEN max linkhdr max protohdr max datalen 
d ————————————— — 7 Q4 


图 7-18 mbuf 和 相关 的 最 大 首部 长 度 


max_protohdr 是 一 个 软 限制 ， 估 算 预 期 的 协议 首部 大 小 。 在 Internet 域 中 ，IP 
和 TCP 首 部 长 度 通常 为 20 字 节 ， 但 都 可 达到 60 字 节 。 长 度 超过 max_protohdr 的 代 
价 是 花 时 间 将 数据 向 后 移动 ， 以 贸 出 比 预期 的 协议 首部 更 大 的 空间 。 
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66-68 domaininit 通 过 调用 timeout 启 动 pfslowtimo 和 pffasttimo。 第 3 个 参数 指 
明 何 时 内 核 应 该 调用 这 个 函数 ， 在 这 里 是 在 1 个 时 钟 滴 答 内 。 两 个 函数 都 显示 在 图 7-19 中 。 





153 void mpe n.c 
154 pfslowtimo (arg) 

155 void *axg; 

156 ( 

157 struct domain *dp; 

158 Struct protosw *pr; 

159 for (dp = domains; dp; dp = dp-»dom next) 

160 for (pr = dp-»dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) 
161 if (pr-»pr slowtimo) 

162 (*pr-»pr slowtimo) (); 

163 timeout(pfslowtimo, (void *) 0, hz / 2); 

164 ) 

165 void 

166 pffasttimo (arg) 

167 void *arg; 

168 ( 

169 struct domain *dp; 

170 struct protosw *pr; 

171 for (dp = domains; dp; dp = dp-»dom next) 

172 for (pr = dp->dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) 
173 if (pr-»pr fasttimo) 

174 (*pr-»pr fasttimo) (); 

175 timeout(pffasttimo, (void *) 0, hz / 5); 

176 } 


uipc domain.c 





图 7-19 函数 pfs1owtimo 和 pffasttimo 


153-176 ”这 两 个 相近 的 函数 用 两 个 for 循 环 分 别 为 每 个 协议 调用 函数 pr_s1lowtimo 和 
pr._fasttimo， 前 提 是 如 果 定 义 了 这 两 个 前 数 。 这 两 个 函数 每 500 ms 和 200 ms 通过 调用 
timeout 调 度 自己 一 次 ，timeout 在 图 3-43 中 讨论 过 。 


7.6 pffindprotofiülpffindtypeuZ2 


如 图 7-20 所 示 ， 函 数 pffindproto 和 pffindtype 通 过 编号 (例如 IPPROTO_TCP) 或 类 
型 (例如 SOCK_STREAM) 来 查找 一 个 协议 。 如 我 们 在 第 15 章 要 看 到 的 ， 当 进程 创建 一 个 插口 时 ， 
这 两 个 函数 被 调用 来 查找 相应 的 protosw 项 。 

69-84 pffindtype 线 性 搜索 domains， 查 找 指定 的 族 ， 然 后 在 域内 搜索 第 一 个 为 此 指定 
类 型 的 协议 。 

85-107 pffindproto 像 pffindtype 一 样 搜索 dqomains， 查 找 由 调用 者 指定 的 族 、 类 型 
和 协议 。 如 果 pffindproto 在 指定 的 协议 族 中 没有 发 现 一 个 (brotocol，type) 匹 配 项 ， 
并 且 type 为 SOCK_RAW， 而 此 域 有 一 个 默认 的 原始 协议 (pr_protocol 等 于 0)， 则 
pffindproto 选 择 默认 的 原始 协议 而 不 是 完全 失败 。 例如， 一 个 调用 如 下 : 

pffindproto(PF INET, 27, SOCK RAW); 

它 返 回 一 个 指向 inetsw[6] 的 指针 ， 软 认 的 原始 耳 协 议 ， 因 为 NeV3 不 包括 对 协议 27 的 支持 。 
通过 访问 原始 中， 一 个 进程 可 以 使 用 内 核 来 管理 卫 分 组 的 发 送 和 接收 ， 从 而 自己 实现 协议 27 


156 


服务 。 
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协议 27 预 留 给 可 靠 的 数据 报 协议 (REFC 1151), 


两 个 函数 都 返回 一 个 所 选 协议 的 protosw 结 构 的 指针 ; 或 者 ， 如 果 没 有 找到 匹配 项 ， 则 
返回 一 个 空 指针 。 





69 
70 
71 
72 
73 
74 


75 
76 
77 
78 
79 
80 
81 
82 
83 
84 


85 
86 
87 
88 
89 
90 
91 


92 
93 
94 
95 
96 
97 
98 
99 
100 
101 


102 
103 
104 
105 
106 
107 


举例 


uipc domain.c 
struct protosw * pc. 


pffindtype(family, type) 
int family, type; 
( 
struct domain *dp; 
struct protosw *pr; 


for (dp = domains; dp; dp = dp-»dom, next) 
if (dp-»dom family == family) 
goto found; 
return (0); 
found: 
for (pr = dp-»dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) 
if (pr-»pr type && pr-»pr type -- type) 
return (pr); 
return (0); 
) 


struct protosw * 
pffindproto(family, protocol, type) 
int family, protocol, type; 
( 

struct domain *dp; 

struct protosw *pr; 

struct protosw *maybe - 0; 


if (family == O0) 
return (0); 
for (dp = domains; dp; dp = dp-»dom next) 
if (dp-»dom family == family) 
goto found; 
return (0); 
found: 
for (pr = dp-»dom protosw; pr < dp-»dom protoswNPROTOSW; pr*«) ( 
if ((pr-»pr protocol == protocol) && (pr-»pr type == type)) 
return (pr); 
if (type == SOCK RAW && pr-»pr type == SOCK RAW && 
pr-»pr,.protocol == 0 && maybe == (struct protosw *) 0) 
maybe - pr; 


) 
return (maybe); 


uipc domain.c 


图 7-20 iE pffindprotoffüpffindtype 


我 们 在 15.6 节 中 会 看 到 ， 当 一 个 应 用 程序 进行 下 面 的 调用 时 : 


Socket(PF INET, SOCK STREAM, 0); /* TCP fü */ 


pffindtype 被 调用 如 下 : 
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pffindtype(PF INET, SOCK, STREAM); 

图 7-12 显 示 pffindtype 会 返回 一 个 指向 inetsw[2 1] 的 指针 ， 因 为 TCP 是 此 数组 中 第 一 
个 SOCK_STREAM 协 议 。 同 样 ， 

socket (PF_INET, SOCK DGRAM, 0); /* UCP fH */ 

会 导致 

pffindtype(PF. INET, SOCK DGRAM); . 


它 返 回 一 个 指向 inetsw[1] 中 UDP 的 指针 。 
7.7 Bfct1linput 函 数 


函数 pfctlinput 给 每 个 域 中 的 每 个 协议 发 送 一 个 控制 请 求 (图 7-21)。 当 可 能 影响 每 个 协 
议 的 事件 发 生 时 ， 使 用 这 个 函数 ， 例 如 一 个 接口 被 关闭 ， 或 路 由 表 发 生 改 变 。 当 一 个 ICMP 重 
定向 报 文 到 达 时 ，ICMP 调 用 pfctlinput (图 11-14)， 因 为 重 定 向 会 影响 所 有 Internet 协 议 ( 例 


如 UDP 和 TCP)。 


- uipc domain.c 
142 pfctlinput(cmd, sa) 


143 int cmd; 

144 struct sockaddr *sa; 

145 ( 

146 struct domain *dp; 

147 struct protosw *pr; 

148 for (dp - domains; dp; dp - dp-»dom next) 

149 for (pr - dp-»dom protosw; pr « dp-»dom protoswNPROTOSW; pr++) 
150 if (pr-»pr ctlinput) 

151 (*pr-»pr ctlinput) (cmd, sa, (caddr t) 0); 

152 } 


uipc domain.c 





图 7-21 函数 pfctlinput 
142-152 ”两 个 贱 套 的 for 循 环 查找 每 个 域 中 的 每 个 协议 。pfctlinput 通 过 调用 每 个 协议 
的 pr_ctlinput 函 数 来 发 送 由 cmd 指 定 的 协议 控制 命令 。 对 于 UDP， 调 用 
udp ctlinput; 而 对 于 TCP， 调 用 tcp_ctlinput。 


7.8 IP 初始 化 


如 图 7-13 所 示 ，Internet 域 没有 一 个 初始 化 函数 ， 但 单个 Internet 协 议 有 。 现 在 ， 我 们 仅 查 
看 IP 初 始 化 函数 ip_init。 在 第 23 章 和 第 24 章 中 ， 我 们 讨论 UDP 和 TCP 初 始 化 函数 。 在 讨论 
这 些 代码 前 ， 需 要 说 明 一 下 数组 ip_protox。 


7.8.4 Internet 传 输 分 用 


一 个 网 络 层 协议 像 下 必须 分 用 输入 数据 报 ， 并 将 它们 传递 到 相应 的 运输 层 协议 。 为 了 完 
成 这 些 ， 相 应 的 protosw 结 构 必 须 通过 一 个 在 数据 报 中 出 现 的 协议 编号 得 到 。 对 于 internet 协 
议 ， 这 由 数组 ip_protox 来 完成 ， 如 图 7-22 所 示 。 

数组 ijp_protox 的 下 标 是 来 自 IP 首 部 的 协议 值 (ip_p， 图 8-8)。 被 选项 是 inetsw 数 组 中 
处 理 此 数据 报 的 协议 的 下 标 。 例 如 ， 一 个 协议 编号 为 6 的 数据 报 由 inetsw[2] 处 理 ， 协 议 为 
TCP。 内 核 在 协议 初始 化 时 构造 jp_protox， 如 图 7-23 所 示 。 
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ip protox[(]: inetsw[]: 
0 | 1I | 
1 | UDP | 
2 
IP (原始 ) 
6 
IP (原始 ) 
17 
255 
图 7-22 数组 ip_protox 将 协议 编号 映射 到 数组 inetsw 中 的 一 项 
71 void 
72 ip init() 
73 ( 
74 struct protosw *pr; 
75 int i; 
76 pr - pffindproto(PF INET, IPPROTO RAW, SOCK, RAW); 
77 if (pr == 0) 
78 panic("ip.init"); 
79 for (i = 0; i < IPPROTO MAX; i++} 
B0 ip protox[i] - pr - inetsw; 
81 for (pr - inetdomain.dom protosw; 
82 pr < inetdomain.dom protoswNPROTOSW; pr++) 
83 if (pr-»pr domain-»dom family == PF INET && 
84 pr-»pr protocol && pr-»-pr protocol !- IPPROTO RAW) 
85 ip protox[pr-»pr. protocol] - pr - inetsw; 
86 ipq.next = ipq.prev = &ipq; ` 
87 ip id = time.tv sec & Oxffff; 
88 ipintrq.ifq maxlen - ipqmaxlen; 
89 i = (if index + 1) * (if index + 1) * sizeof(u long); 
90 ip ifmatrix = (u, long *) malloc(i, M RTABLE, M WAITOK); 
91 bzero((chaxr *) ip ifmatrix, i); 
92 ) 






图 7-23 函数 ip_init 


7.8.2 ip_init 函 数 


domaininit (图 7-15) 在 系统 初始 化 期 间 调 用 函数 lp_init。 
71-78 pffindproto 返 回 一 个 指向 原始 协议 (inetswt3]， 图 7-14) 的 指针 。 如 果 找 不 到 原 
始 协议 ，NeV3 就 调用 panic， 因 为 这 是 内 核 要 求 的 部 分 。 如 果 找 不 到 原始 协议 ， 内 核 一 定 被 
错误 配置 了 。 了 将 传输 到 一 个 未 知 传输 协议 的 到 达 分 组 传递 给 此 协议 ， 在 那里 它们 由 内 核 外 
部 的 一 个 进程 来 处 理 。 
79-85 接着 的 两 个 循环 初始 化 数组 ip_protox。 第 一 个 循环 将 数组 中 的 每 项 设置 为 pz， 即 
默认 协议 的 下 标 (图 7-22 中 为 3)。 第 二 个 循环 检查 ijnet sw 中 的 每 个 协议 (而 不 是 协议 编号 为 0 或 
IPPROTO_RAW 的 项 )， 并 且 将 ijp_protox 中 的 匹配 项 设置 为 引用 相应 的 ijnetsw 项 。 为 此 ， 
每 个 protosw 结 构 中 的 pr_protocol 必 须 是 期 望 出 现在 输入 数据 报 中 的 协议 编号 。 


ip input.c 


ip input.c 
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86-92 ip_init 和 初始 化 IP 重 装 队列 ipq(10.6 节 )， 用 系统 时 钟 植 和 人 ip_idG， 并 将 IP 输 入 队列 
(ipintrq) 的 最 大 长 度 设置 为 50(ipqmaxlen)。ip_id 用 系统 时 钟 设置 ， 为 数据 报 标 识 符 提 
供 一 个 随机 起 点 (10.6 节 )。 最 后 ，ip_init 分 配 一 个 两 维 数组 ip_ifmatrix， 统 计 在 系统 接 
口 之 间 路 由 的 分 组 数 。 
在 NeU3 中 ， 有 很 多 变量 可 以 被 一 个 系统 管理 员 修改 。 为 了 九 许 在 运行 时 改变 这 

些 变量 而 不 需 重 新 编译 内 核 ， 一 个 常量 (在 此 例 中 是 IFQ_MRAXLEN) 表 示 的 默认 值 在 编 

译 时 指派 给 一 个 变量 (ijpqmaxlen)。 一 个 系统 管理 员 能 使 用 一 个 内 核 调试 器 如 adb， 

来 修改 ijpqmaxlen， 并 用 新 值 重 启 内 核 。 如 果 图 7-23 直 接 使 用 IFQ_MAXLEN， 它 会 

要 求 内 核 重 新 编译 来 改变 这 个 限制 。 


7.9 sysct1 系 统 调用 


系统 调用 sysct1 访 问 并 修改 Net/3 系 统 范围 参数 。 系 统管 理 员 通 过 程序 sysct1(8) 修 改 这 
些 参 数 。 每 个 参数 由 一 个 分 层 的 整数 列表 来 标识 ， 并 有 一 个 相应 的 类 型 。 此 系统 调用 的 原型 为 : 

int sysctl(int *name, u int namelen, void *old, size t *oldlenp, void *new, size_t newlen); 

*name 指 向 一 个 包含 hamelen 个 整数 的 数组 。*old 指 向 在 此 范围 内 返回 的 旧 值 ，*new 指 向 
在 此 范围 内 传递 的 新 值 。 

图 7-24 总 结 了 关于 联网 名 称 的 组 织 。 







CTL KERN 


CTL USER 


CTL NET 


TN 


PF_OSI 


o 


IPPROTO IGMP 







IPCTL FORWARDING IPCTL DEFTTL 
IPCTL SENDREDIRECTS 
图 7-24 _ sysct1 的 名 称 组 织 


在 图 7-24 中 ， 王 转发 标志 的 全 名 为 


CTL NET. PF INET, 0. IPCTL FORWARDING 
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用 4 个 整数 存储 在 一 个 数组 中 。 
net sysctli 34 


每 层 的 sysct1 命 名 方案 通过 不 同 国 数 处理 。 图 7-25 显 示 了 处 理 这 些 Internet 参 数 的 困 数 。 






net eysctl 


pr.sysctl 


IPCTL FORWARDING D : ICMPCTL MASKREPL 
IPCTL SENDREDIRECTS | Cápceyecti D Cap_syscti 
IPCTL DEFTTL : : 


UDPCTL_CHECKSUM 
图 7-25 处 理 Internet 参 数 的 sysct1l 图 数 
顶层 名 称 由 sysct1 处 理 。 网 络 层 名 称 由 net_sysct1 处 理 ， 它 根据 族 和 协议 将 控制 转 
给 此 协议 的 protosw 项 指定 的 pr_sysctli 函 数 。 
sysct1 在 内 核 中 通过 _sysct1 函 数 实 现 ， 函 数 _sysct1 不 在 本 书 中 讨论 。 它 
包含 将 sysct1 参 数 传 给 内 核 和 从 内 核 取 出 sysct1 参 数 的 代码 及 一 个 switch 语 揣 ， 
这 个 switch 语 身 选择 相应 的 函数 来 处 理 这 些 参数 ， 在 这 里 是 net_sYysctl。 


图 7-26 所 示 的 是 国 数 net_sysc tl o 





uipc domain.c 
108 net sysctl(name, namelen, oldp, oldlenp, newp, newlen, p) 


109 int *name; 
110 u, int namelen; 
111 void *oldp: 
112 size t *oldlenp; 
113 void *newp;: 
114 size t newlen; 
115 struct proc *p; 


116 ( 

117 struct domain *dp; 

118 struct protosw *pr; 

119 int family, protocol; 

120 /* 

121 * All sysctl names at this level are nonterminal; 
122 * next two components are protocol family and protocol number, 
123 * then at least one additional component. 

124 */ 

125 if (namelen « 3) 

126 return (EISDIR); /* overloaded */ 

127 family - name[0]; 

128 protocol - name[1]; 

129 if (family == O0) 


图 7-26 inet sysctl 
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130 return (0); 

131 for (dp = domains; dp; dp = dp->dom_next) 

132 if (dp->dom family == family) 

133 goto found; 

134 return (ENOPROTOOPT); 

135 found: 

136 for (pr = dp-»dom protosw; pr < dp-»dom protoswNPROTOSW; pr++) 

137 if (pr-»pr protocol == protocol && pr-»pr sysctl) 

138 return ((*pr-»pr sysctl) (name + 2, namelen - 2, 

139 oldp, oidlenp, newp, newlen)); 

140 return (ENOPROTOOPT); 

141 ) 

uipc domain.c 
图 7-26 (£3) 

108-119 net_sysct1 的 参数 除了 增加 了 p 外 ， 同 系统 调用 sysct1 一 样 ，p 指 向 当前 进程 
结构 。 


120-134 ”在 名 称 中 接 下 来 的 两 个 整数 被 认为 是 在 结构 domain 和 protosw 中 指定 的 协议 族 
和 协议 编号 成 员 的 值 。 如 果 没 有 指定 族 ， 则 返回 9。 如 果 指 定 了 族 ，for 循 环 在 域 列表 中 查找 
一 个 匹配 的 族 。 如 果 没 有 找到 ， 则 返回 ENOPROTOOPT。 
135-141 如 果 找 到 匹配 域 , 第 二 个 for 循 环 查 找 第 一 个 定义 了 函数 pr_sysct1 的 匹配 协议 。 
当 找到 匹配 项 ， 将 请 求 传递 给 此 协议 的 pr_sysct1 函 数 。 注 意 ， 把 ame+2) 指 向 的 整数 传 
递 给 下 一 级 。 如 果 没 有 找到 匹配 的 协议 ， 返 回 ENOPROTOOPT。 

图 7-27 所 示 的 是 为 Internet 协 议定 义 的 pr_sysct1 函 数 。 


ip syscti 8.9 


IPPROTO UDP ] udp sysctl 23.1145 
IPPROTO ICMP icmp sysctl : 11.147 





图 7-27 Internet 协 议 族 的 pr_sysct1 国 数 
在 路 由 选择 域 中 ，pr_sysct1l 指 向 函数 sysct1_rtable， 它 在 第 19 章 中 讨论 。 
7.10 小 结 


本 章 从 说 明 结构 domain 和 protosw 开 始 ， 这 两 个 结构 在 Net/3 内 核 中 描述 及 组 织 协议 。 
我 们 看 到 一 个 域 的 所 有 protosw 结 构 在 编译 时 分 配 在 一 个 数组 中 ，inetdomain 和 数组 
inetsw 描 述 Internet 协 议 。 我 们 仔细 查看 了 三 个 描述 P 协 议 的 inet sw 项: 一 个 用 于 内 核 访问 
IP， 其 他 两 个 用 于 进程 访问 IP。 

在 系统 初始 化 时 ，dqomainint 将 域 链接 到 aomains 列 表 中 ， 调 用 域 和 协议 初始 化 函数 ， 
并 调用 快速 和 慢 速 超时 函数 。 | 

两 个 函数 pf findproto 和 pffindtype 通 过 协议 号 或 类 型 搜索 域 和 协议 列表 。 
pfctlinput 发 送 一 个 控制 命令 给 所 有 协议 。 

最 后 ， 我 们 说 明了 IP 初 始 化 程序 ， 它 通过 数组 ip_procox 完 成 传输 分 用 。 


习题 
7.1 由 谁 调用 pfsfindproto 会 返回 一 个 指向 inetsw[6] 指 针 ? 


第 8 章 IP: 网 际 协议 


8.1 引言 


本 章 我 们 介绍 IP 分 组 的 结构 和 基本 的 IP 处 理 过 程 ， 包 括 输 入 、 转 发 和 输出 。 假 定 读 者 熟 
悉 IP 协 议 的 基本 操作 ， 其 他 IP 的 背景 知识 见 卷 1 的 第 3、9 和 12 章 。RFC 791 [Postel 1981a] 是 IP 
的 官方 规范 ，RFC 1122 [Braden 1989a] 中 有 RFC 791 的 说 明 。 

第 9 章 将 讨论 选项 的 处 理 ， 第 10 章 讨论 分 片 和 重 装 。 图 8-1 显 示 了 IP 层 常见 的 组 织 形式 。 


E 








B: 


网 络 
图 8-1 IP 层 的 处 理 


在 第 4 章 中 ， 我 们 看 到 网 络 接口 如 何 把 到 达 的 IP 分 组 放 到 IP 输 入 队列 ijpintrq 中 去 ,并 如 
何 调用 一 个 软件 中 断 。 因 为 硬件 中 断 的 优先 级 比 软件 中 断 的 要 高 ， 所 以 在 发 生 一 次 软件 中 断 
之 前 ， 有 的 分 组 可 能 会 被 放 到 队列 中 。 在 软件 中 断 处 理 中 ，ipintr 函 数 不 断 从 ipintrq 中 
移 走 和 处 理 分 组 ， 直 到 队列 为 空 。 在 最 终 的 目的 地 ， 了 P 把 分 组 重 装 为 数据 报 , 并 通过 函数 调用 
把 该 数据 报 直接 传 给 适当 的 运输 层 协 议 。 如 果 分 组 没有 到 达 最 后 的 目的 地 ， 并 且 如 果 主 机 被 . 
配置 成 一 个 路 由 器 ， 则 IP 把 分 组 传 给 ip_forward。 传 输 协议 和 ip_forward 把 要 输出 的 分 
组 传 给 ip_output， 由 ip_output 完 成 IP 首 部 、 选 择 输出 接口 以 及 在 必要 时 对 分 组 分 片 。 
最 终 的 分 组 被 传 给 合适 的 网 络 接口 输出 函数 。 

当 产 生 差 错时 ，IP 丢 弃 该 分 组 ， 并 在 某 些 条 件 下 向 分 组 的 源 站 发 出 一 个 差错 报 文 。 这 些 
报 文 是 ICMP( 第 11 章 ) 的 一 部 分 。Net/3 通 过 调用 icmp_error 发 出 ICMP 差 错 报 文 ，icmp_ 
error 接 收 一 个 mbuf， 其 中 包含 差错 分 组 、 发 现 的 差错 类 型 以 及 一 个 选项 码 ， 提 供 依赖 于 差 
错 类 型 的 附加 信息 。 
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本 章 我 们 讨论 IP 为 什么 以 及 何 时 发 送 ICMP 报 文 ， 至 于 有 关 ICMP 本 身 的 详细 讨论 将 在 第 
11 章 进行 。 
8.2 代码 介绍 
本 章 讨论 两 个 头 文件 和 三 个 C 文 件 。 如 图 8-2 所 示 。 


net/route.h 路 由 入 口 
netinet/ip.h IP 首 部 结构 


netinet/ip, input.c IP 输 入 处 理 
netinet/ip  output.c IP 输 出 处 理 
netinet/ip. cksum.c Enternet 检 验 和 算法 


图 8-2 本 章 描述 的 文件 





8.2.1 全 局 变量 
在 下 处 理 代码 中 出 现 了 儿 个 全 局 变量 ， 见 图 8-3。 


in ifaddr struct in. ifaddr * IP 地 址 清单 

ip defttl i IP 分 组 的 默认 TTL 

ip id i 赋 给 输出 的 IP 分 组 的 上 一 个 ID 
ip_protox int[] IP 分 组 的 分 路 矩阵 


ipforwarding int 系统 是 否 转 发 IP 分 组 ? 


ipforward_rt struct route 大 多 数 最 近 转 发 的 路 由 的 缓存 
ipintrq struct ifqueue IP 输 入 队列 f 
ipqmaxlen i IP 输 入 队列 的 最 大 长 度 
ipsendredirects int 系统 是 否 发 送 ICMP 重 定向 ? 
ipstat struct ipstat . IP 统计 


图 8-3 本 章 中 引入 的 全 局 变量 





8.2.2 统计 量 


IP 收 集 的 所 有 统计 量 都 放 在 图 8-4 描 述 的 ijpstat 结 构 中 。 图 8-5 显 示 了 由 netstat-s 命 
令 得 到 的 一 些 统计 输出 样本 。 统 计 是 在 主机 启动 30 天 后 收集 的 。 





























ips. badhlen IP 首 部 长 度 无 效 的 分 组 数 
ips_badlen IP 首 部 和 IP 数 据 长 度 不 一 致 的 分 组 数 
ips_badoptions 在 选项 处 理 中 发 现 差错 的 分 组 数 
ips. badsum 愉 验 和 差错 的 分 组 数 

ips. badvers IP 版 本 不 是 4 的 分 组 数 

ips. cantforward 日 的 站 不 可 到 达 的 分 组 数 


向 高 层 交 付 的 数据 报 数 


ips delivered 


图 8-4 本 章 收集 的 统计 
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转发 的 分 组 数 




















































ips forward 











ips fragdropped 分 片 丢 失 数 (副本 或 空间 不 足 ) 
ips_fragments 收 到 分 片 数 

ips_fragtimeout 超时 的 分 片 数 

ips, noproto 具有 未 知 或 不 支持 的 协议 的 分 组 数 
ips reassembled 重 装 的 数据 报 数 

ips, tooshort 有 具有 无 效 数据 长 度 的 分 组 数 

ips toosmall 无 法 包含 下 分 组 的 太 小 的 分 组 数 


全 部 接收 到 的 分 组 数 
由 于 不 分 片 比特 而 丢弃 的 分 组 数 
成 功 分 片 的 数据 报 数 

系统 生成 的 数据 报 数 ( 即 没 有 转发 的 ) 
丢弃 的 分 组 数 一 一 到 目的 地 没有 路 由 


ips_total 






















ips_cantfrag 
ips fragmented 
ips, localout 


ips noroute 


ips, odropped 由 于 资源 不 足 丢 掉 的 分 组 数 
ips_ofragments 为 输出 产生 的 分 片 数 

ips, rawout 全 部 生成 的 原始 ip 分 组 数 
ips, redirectsent 已 发 送 的 重 定向 报 文 数 


图 8-4 (2) 


netstat -s 输出 


27,881,978 total packets received 
6 bad header checksums 

9 with size smaller than minimum 
14 with data size « data length 


ips total 
ips badsum 

ips tooshort 
ips, toosmall 




























































0 with header length « data size ips. badhlen 

0 with data length « header length ips badlen 

0 with bad options ips. badoptions 
0 with incorrect version number ips. badvers 


ips fragments 
ips. fragdropped 
ips, fragtimeout 
ips, reassembled 
ips delivered 
ips noproto 


72,786 fragments received 
0 fragments dropped (dup or out of space) 

349 fragments dropped after timeout 

16,557 packets reassembled ok 

27,390,665 packets for this host 

330,882 packets for unknown/unsupported protocol 
97,939 packets forwarded 
6,228 packets not forwardable 
0 redirects sent 
29,447,726 packets sent from this host 
769 packets sent with fabricated ip header 

0 output packets dropped due to no bufs, etc. 
0 output packets discarded due to no route 
260,484 output datagrams fragmented 
796,084 fragments created 

0 datagrams that can't be fragmented 


图 8-5 IP 统 计 样 本 
ips_noproto 的 值 很 高 ， 因 为 涯 没有 进程 准备 接收 报 文 时 ， 它 能 对 ICMP 主 机 
不 可 达 报 文 进 行 计 数 。 见 第 32.5 节 的 详细 讨论 。 


ips forward 
ips cantforward 
ips redirectsent 
ips. localout 
ips rawout 
ips. odropped 
ips noroute 
ips fragmented 
ips. ofragments 
ips. cantfrag 


8.2.3 SNMP 变量 
图 8-6 显 示 了 IP 组 和 Net/3 收 集 的 统计 中 的 SNMP 变 量 之 间 的 关系 。 
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ipDefaultTTL ip defttl 数据 报 的 默认 TTL(64 跳 ) 
ipForwarding ipforwarding 系统 是 路 由 器 玛 ? 
ipReasmTimeout IPFRAGTTL 分 片 的 重 装 超时 (30 秒 ) 
ipInHdrErrors ips badsum« IP 首 部 出 错 的 分 组 数 

















ips. tooshort4 
ips, toosmall-« 
ips. badhlen^s 
ips, badlen^ 
ips. badoptions- 
ips. badvers 



























由 于 错误 交付 而 丢弃 的 下 分 组 数 (ip_output 也 失败 ) 
转发 的 IP 分 组 数 

收 到 的 分 片 数 
丢失 的 分 片 数 


ipInAddrErrors ips .cantforward 







ipForwDatagrams ips forward 


ipReasmReqds ips fragments 


ipReasmFaiis ips, fragdropped-« 





ips, fragtimeout 























ipReasmOKs ips, reassembled 成 功 地 重 装 的 数据 报 数 
ipInDiscards (RRA) 由 十 资源 限制 而 丢弃 的 数据 报 数 
ipInUnknownProtos ips noproto 具有 未 知 或 不 支持 的 协议 的 数据 报 数 


ipInDelivers ips delivered 交付 到 运输 层 的 数据 报 数 
















ipOutRequests ips_localout 由 运输 层 产 生 的 数据 报 数 
ipFragOKs ips, fragmented 分 片 成 功 的 数据 报 数 
iPFragFails ips. cantfrag 由 于 不 分 片 比特 丢弃 的 IP 分 组 数 
ipFragCreates ips_ofragments 为 输出 产生 的 分 片 数 
ipOutDiscards ips odropped 由 于 资源 短缺 玉 失 的 IP 分 组 数 





ipOutRoutes ips noroute 由 于 没有 路 由 丢弃 的 IP 分 组 数 


图 8-6 IP 组 中 SNMP 变 量 的 例子 


8.3 IP 分 组 


为 了 更 准确 地 讨论 Internet 协 议 处 理 ， 我 们 必须 定义 一 些 名 词 。 图 8-7 显 示 了 在 不 同 的 
Internet 层 之 间 传 递 数据 时 用 来 描述 数据 的 名 词 。 

我 们 把 传输 协议 交 给 IP 的 数据 称 为 报 文 。 典 型 的 报 文 包含 一 个 运输 层 首 部 和 应 用 程序 数 
据 。 图 8-7 所 示 的 传输 协议 是 UDP。IP 在 报 文 的 首部 前 加 上 它 自己 的 首部 形成 一 个 数据 报 。 如 
果 企 选 定 的 网 络 中 ， 数 据 报 的 长 度 太 大 ，IP 就 把 数据 报 分 裂 成 几 个 分 片 ， 每 个 分 片 中 含有 它 
自己 的 IP 首 部 和 一 段 原来 数据 报 的 数据 。 图 8-7 显 示 了 一 个 数据 报 被 分 成 三 个 分 片 。 

当 提 交 给 数据 链 路 层 进行 传送 时 ， 一 个 IP 分 片 或 一 个 很 小 的 无 需 分 片 的 IP 数 据 报 称 为 分 
组 。 数 据 链 路 层 在 分 组 前 面 加 上 它 自己 的 首部 ， 并 发 送 得 到 的 帧 。 

IP 只 考虑 它 自己 加 上 的 I 了 P 首 部 ， 对 报 文本 身 既 不 检查 也 不 修改 (除非 进行 分 上 请 )。 图 8-8 显 
示 了 IP 首 部 的 结构 。 

图 8-8 包 括 ip 结 构 ( 如 图 8-9) 中 各 成 员 的 名 字 ，Net/3 通 过 该 结构 访问 IP 首 部 。 

47-67 ”因为 在 存储 器 中 ， 比 特 字段 的 物理 烦 序 依 机 器 和 编译 器 的 不 同 而 不 同 ， 所 以 由 #ifs 
保证 编译 器 按照 IP 标 准 排列 结构 成 员 。 从 而 ， 当 Net/3 把 一 个 ip 结 构 和 覆盖 到 存储 器 中 的 一 个 IP 
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分 组 上 时 ， 结 构成 员 能 够 访问 到 分 组 中 正确 的 比特 。 
一 一 六 一 一 一 


DI MT 


^ ^ AU OM ~ 
-7 M ————————— 数据 报 — ^x 
r 1 1 [| M M 
A ^ I ~ ~ 


pd Pd M ~ 
^ 


^ 分 片 1 


4 


1 
1 
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0 15 16 31 
ip v ip hl ip..tos ip len 
标识 符 生存 时 间 标志 和 分 片 偏 移 
ip ia 1 ip off 
ip ttl ip.p ip cksum 
32 位 源 公 地 址 
ip.src 


32 位 日 的 下 地 址 . 


~ ~ 


~ 
~ ~ 













ip dst 


选项 (如 果 有 ) 





图 8-8 “IP 数据 报 ， 包 括 ip 结 构 名 





ip.h 
40 /* P 
41 * Structure of an internet header, naked of options. 
42 * 


43 * We declare ip len and ip off to be short, rather than u short 
44 * pragmatically since otherwise unsigned comparisons can result 
45 * against negative integers quite easily, and fail in subtle ways. 
46 */ 

47 struct ip ( 

48 4if BYTE ORDER == LITTLE ENDIAN : 

49 u_char ip hl:4, /* header length */ 


50 ip v:4; /* version */ 

51 #endif : 

52 4if BYTE ORDER == BIG ENDIAN 

53 u char ip v:4, /* version */ 

54 ip hl:4; /* header length */ 
55 #endif 


图 8-9 ip 结构 
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56 u_char ip tos; /* type of service */ 
57 short ip len; /* total length */ 
58 u Short ip id; /* identification */ 
59 short ip.off; /* fragment offset field */ 
60 4define IP DF Ox4000 /* dont fragment flag */ 
61 4define IP MF 0x2000 /* more fragments flag */ 
62 4define IP OFFMASK Oxlfff /* mask for fragmenting bits */ 
63 u_char ip ttl; /* time to live */ 
64 u_char ip p: /* protocol */ 
65 u, short ip, sum; /* checksum */ 
66 struct in_addr ip src, ip .dst;  /* source and dest address */ 
67 }; 
ip.h 
图 8-9 (2x) 


IP 首 部 中 包含 IP 分 组 格式 、 内 容 、 守 址 、 路 由 选择 以 及 分 片 的 信息 。 

IP 分 组 的 格式 由 版 本 ip_v 指 定 ， 通 常 为 4; 首部 长 度 ip_h1l1， 通 常 以 4 字 节 单元 度量 ; 分 
组 长 度 ip_1en 以 字 节 为 单位 度量 ; 传输 协议 ip_p 生 成 分 组 内 数据 ; ip_sum 是 检验 和 ， 检 
测 在 发 送 中 首部 的 变化 。 

标准 的 卫 首 部 长 度 是 20 个 字 节 ， 所 以 ip_hl 必 须 大 于 或 等 于 5。 大 于 5 表示 耳 选 项 紧 跟 在 
标准 首部 后 。 如 ip_h1 的 最 大 值 为 15 (2:-1)， 人 允许 最 多 40 个 字 节 的 选项 (20+40=60)。IP 数 据 
报 的 最 大 长 度 为 65535 (2'-1) 字 节 ， 因 为 Lp_1en 是 一 个 16 bit 的 字段 。 图 8-10 是 整个 构成 。 


I — iph apt 


标准 首部 选项 l 
ja ip len'f1fji y 
(最 大 65535 字 节 ) —» 
图 8-10 有 选项 的 IP 分 组 构成 
因为 tp_h1 是 以 4 字 节 为 单元 计算 的 ， 所 以 卫 选 项 必须 常常 被 填充 成 4 字 节 的 倍数 。 
8.4 输入 处 理 : ipintzr 函 数 


在 第 3、 第 4 和 第 5$ 章 中 ， 我 们 描述 了 示例 的 网 络 接口 如 何 对 到 达 的 数据 报 排队 以 等 待 协 议 
处 理 : 

1) 以 太 网 接口 用 以 太 网 首部 中 的 类 型 字段 分 路 到 达 帧 ( 见 4.3 节 ); 

2) SLIP 接 口 只 处 理 IP 分 组 ， 所 以 无 需 分 用 ( 见 5.3 节 ); 

3) 环 回 接口 在 looutput 函 数 中 结合 输入 和 输出 处 理 ， 用 目的 地 址 中 的 sa_family 成 员 
对 数据 报 分 用 ( 见 5.4 节 )。 

在 以 上 情况 中 ， 当 接口 把 分 组 放 到 ipintrq 上 排队 后 ， 通 过 s chednetisr 调 用 一 个 软 
中 断 。 当 该 软 中 断 发 生 时 ， 如 果 耳 处 理 过 程 已 经 由 schednetisr 调 度 ， 则 内 核 调用 ipintr。 
在 调用 ipintr 之 前 ，CPU 的 优先 级 被 改变 成 splnet。 










8.4.40 ipintr 概 观 


ipintr 是 一 个 大 函数 ， 我 们 将 在 4 个 部 分 中 讨论 : (DD 对 到 达 分 组 验证 ; (2) 选 项 处 理 及 转 
发 ; (3) 分 组 重 装 ，(4) 分 用 。 在 ipintr 中 发 生 分 组 的 重 装 ， 但 比较 复杂 ， 我 们 将 单独 放 在 第 
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10 章 中 讨论 。 图 8-11 显 示 了 ipintr 的 整体 结构 。 


100 void ip-input.c 
101 ipintr() 
102 ( 
103 Struct ip *ip; 
104 struct mbuf *m; 
105 Struct ipq *fp; 
106 Struct in ifaddr *ia; 
107 int hlen, s; 
108 next: 
109 /* 
110 * Get next datagram off input queue and get IP header 
111 * in first mbuf. 
112 */ 
113 s = splimp(); 
114 IF. DEQUEUE (&kipintrq, m); 
115 splx(s); 
116 if (m == 0) 
117 return; 
/*input pacdet procesoing */ 
332 goto next; 
333 bad: 
334 m freem(m); 
335 goto next; 
336 ) vos 
ip input.c 


图 8-11 ipintrER A 
100-117 标号 next 标 识 主要 的 分 组 处 理 循 环 的 开始 。ipintr 从 ipintra 中 移 走 分 组 ， 并 
对 之 加 以 处 理 直 到 整个 队列 空 为 止 。 如 果 到 函数 最 后 控制 失败 ，goto 把 控制 权 传 回 给 next 
中 最 上 面 的 函数 。ipintr 把 分 组 阻塞 在 splimp 内 ， 避 免 当 它 访问 队列 时 ， 运 行 网 络 的 中 断 
程序 (例如 slinput 和 ether_ input). 
332-336 ”标号 bad 标 识 由 于 释放 相关 mbuf 并 返回 到 next 中 处 理 循环 的 开始 而 自动 丢弃 的 
分 组 。 在 整个 ipintr 中 ， 都 是 跳 到 bad 来 处 理 差 错 。 


8.4.2 验证 


我 们 从 图 8-12 开 始 : 把 分 组 从 ipintrq 中 取出 ， 验 证 它们 的 内 容 。 损 坏 和 有 差错 的 分 组 
被 自动 丢弃 。 





jp input. 
118 7* ip input.c 
119 * If no IP addresses have been set yet but the interfaces 

120 * are receiving, can't do'anything with incoming packets yet. 

121 *f > 

122 if (in ifaddr == NULL) 

123 goto bad; 

124 ipstat.ips total**; 

125 if (m-»m len « sizeof(struct ip) && 


图 8-12 ipintr 函 数 
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126 (m = m pullup(m, sizeof(struct ip))) == 0) ( 
127 ipstat.ips toosmall-4*; 
128 goto next; 
129 H 
130 ip = mtod(m, struct ip *); 
131 , if (ip-»ip v != IPVERSION) ( 
132 ipstat.ips badvers-*; 
133 goto bad; 
134 ) 
135 hlen = ip-»ip hl «« 2; 
136 if (hlen « sizeof(struct ip)) ( /* minimum header length */ 
137 ipstat.ips, badhlen++; 
138 goto bad; 
139 } 
140 if (hlen > m->m_len) ( 
141 if ((m = m pullup(m, hlen)) == 0) ( 
142 ipstat.ips badhlen*-*; 
143 goto next; 
144 ) 
145 ip = mtod(m, struct ip *)5; 
146 } 
147 if (ip->ip_sum = in,cksum(m, hlen)) ( 
148 ipstat.ips, badsum++; 
149 goto bad; 
150 J 
151 /* 
152 * Convert fields to host representation. 
153 */ ! 
154 NTOHS(ip-»ip len); 
155 if (ip-»ip len < hlen) ( 
156 ipstat.ips, badlen++; 
157 goto bad; 
158 H 
159 NTOHS(ip-»ip id); 
160 NTOHS (ip-»ip off); 
161 /* 
162 * Check that the amount of data in the buffers 
163 * is as at least much as the IP header would have us expect. 
164 * Trim mbufs if longer than we expect. 
165 * Drop packet if shorter than we expect. 
166 */ 
167 if (m-»m pkthdr.len < ip-»ip len) ( 
168 ipstat.ips tooshort-*; 
169 goto bad; 
170 ) 
171 if (m-»m pkthdr.len » ip-»ip len) ( 
172 if (m-»m len -- m-»m pkthdr.len) ( 
173 m-»m len = ip-»ip len; 
174 m-»m pkthdr.len = ip-»ip len; 
175 ) else 
176 m adj(m, ip-»ip len - m-»m pkthdr.len); 
3TP 0o M — ——— ip. input.c 
图 8-12 ( 续 ) 
1. IP 版 本 


118-134 如果 in_ifaddr 表 ( 见 第 6.5 节 ) 为 空 ， 则 该 网 络 接口 没有 指派 下 地 址 ，ipintr 必 
须 层 掉 所 有 的 了 P 分 组 ; 没有 地 址 ，ipintr 就 无 法 决定 该 分 组 是 否 要 到 该 系统 。 通 常 这 是 一 种 
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暂时 情况 ， 是 当 系 统 启动 时 ， 接 口 正在 运行 但 还 没有 配置 好 时 发 生 的 。 我 们 在 6.3 节 中 介绍 了 
地 址 是 如 何 分 配 的 问题 。 
在 ijpintr 访 问 任何 IP 首部 字段 之 前 ， 它 必须 证 实 ip_v 是 4(IPVERSION)。RFC 1122 要 求 
某 种 实现 丢弃 那些 具有 无 法 识别 版 本 号 的 分 组 而 不 回 显 信息 。 
Net/2 不 检查 ip_v。 目 前 大 多 数 正在 使 用 的 IP 实 现 ， 包 括 NeU2， 都 是 在 了 的 版 本 
4 之 后 产生 的 ， 因 此 无 需 区 分 不 同 IP 版 本 的 分 组 。 因 为 目前 正在 对 IP 进 行 修正 ， 所 以 
不 久 将 来 的 实现 都 将 检查 ip_v。 
IEN 119 [Forgie 1979] 和 RFC 1190 [Topolcic 1990] 描述 了 使 用 卫 版 本 5 和 6 的 实 
验 协议 。 版 本 6 还 被 选 为 下 一 个 正式 的 [了 了 标准 (IPv6)。 保 留 版 本 0 和 15， 其 他 的 没有 赋 
值 。 


在 C 中 ， 处 理 位 于 一 个 无 类 型 存储 区 域 中 数据 的 最 简单 的 方法 是 : 在 该 存储 区 域 上 覆盖 一 
个 结构 ， 转 而 处 理 该 结构 中 的 各 个 成 员 ， 而 不 再 对 原始 的 字 节 进行 操作 。 如 第 2 章 所 言 ，mbuf 
链 把 一 个 字 节 的 逻辑 序列 ， 例 如 一 个 IP 分 组 ， 储 存在 多 个 物理 mbuf 中 ， 各 mbuf 相 互 连 接 在 一 
个 链表 上 。 因 为 覆盖 技术 也 可 用 于 下 分 组 的 首部 ， 所 以 首部 必须 驻 留 在 一 段 连续 的 存储 区 内 
(也 就 是 说 ， 不 能 把 首部 分 开放 在 不 同 的 存储 器 缓存 区 )。 
135-146 下 面 的 步 又 保证 IP 首 部 (包括 选项 ) 位 于 一 段 连 续 的 存储 器 缓存 区 上 : 

* 如果 在 第 一 个 mbuf 中 的 数据 小 于 一 个 标准 的 IP 首 部 (20 字 节 )，m_pul1lup 会 重新 把 该 标 

准 首部 放 到 一 个 连续 的 存储 器 缓存 区 上 去 。 

链 路 层 不 太 可 能 会 把 最 大 的 (60 字 节 ) IP 首 部 分 在 两 个 mbuf 中 从 而 使 用 上 面 的 
m pullup, 


。ip_hl 通 过 乘 以 4 得 到 首部 字 节 长 度 ， 并 将 其 保存 在 hlen 中 。 
。 如 果 卫 分 组 首部 的 字 节 数 长 度 hlen 小 于 标准 首部 (20 字 节 )， 将 是 无 效 的 并 被 丢弃 。 
。 如 果 整 个 首部 仍然 不 在 第 一 个 mbuf 中 (也 就 是 说 ， 分 组 包含 了 IP 选 项 )， 则 由 m_pullup 
完成 其 任务 。 
同样 ， 这 不 一 定 是 必需 的 。 
检验 和 计算 是 所 有 Internet 协 议 的 重要 组 成 。 所 有 的 协议 均 使 用 相同 的 算法 (由 国 数 
in_cksum 完 成 )， 但 应 用 于 分 组 的 不 同 部 分 。 对 IP 来 说 ， 检 验 和 只 保证 IP 的 首部 (以 及 选项 ， 
如 果 有 的 话 )。 对 传输 协议 ， 如 UDP 或 TCP， 检 验 和 覆盖 了 分 组 的 数据 部 分 和 运输 层 首部 。 
2. IP 检 验 和 
147-150 ipintr 把 由 in_cksum 计 算出 来 的 检验 和 保存 首部 的 jp_sum 字 段 中 。 一 个 末 被 
破坏 的 首部 应 该 具有 0 检验 和 。 
正如 我 们 将 在 8.7 节 中 看 到 的 ， 在 计算 到 达 分 组 的 检验 和 之 前 ， 必 须 对 ip_sum 
清 零 。 通 过 把 in_cksum 中 的 结果 储存 在 ip_sum 中 ， 就 为 分 组 转发 作 好 了 准备 ( 尽 
管 还 没有 减 小 TTL)。ip_output 函 数 不 依 赖 这 项 操作 ; 它 为 转发 的 分 组 重新 计算 检 
验 和 。 
如 果 结 果 非 零 ， 则 该 分 组 被 自动 丢弃 。 我 们 将 在 8.7 节 中 详细 讨论 in_cksum。 
3. 字 节 顺序 
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151-160 Intermet 标 准 在 指定 协议 首部 中 多 字 节 整数 值 的 字 节 顺 序 时 非常 小 心 。NTORS 把 
IP 首 部 中 所 有 16 bit 的 值 从 网 络 字 节 序 转换 成 主机 字 节 序 : 分 组 长 度 (ip_len)、 数 据 报 标识 符 
(ip_id) 和 分 片 偏 移 (ip_off)。 如 果 两 种 格式 相同 ， 则 NTOHS 是 一 个 空 的 宏 。 在 这 里 就 转换 
成 主机 字 节 序 ， 以 避免 NeV3 每 次 检查 该 字段 时 必须 进行 一 次 转换 。 
4. 分 组 长 度 
161-177 ”如果 分 组 的 逻辑 长 度 (ip_1len) 比 储存 在 mbuf 中 的 数据 量 (m_pkthdr . Len) 大 ， 
并 且 有 些 字 节 被 丢失 了 ， 就 必须 丢弃 该 分 组 。 如 果 mbuf 比 分 组 大 ， 则 去 掉 多 余 的 字 节 。 
丢失 字 节 的 一 个 常见 原因 是 因为 数据 到 达 某 个 没有 或 只 有 很 少 缕 存 的 事 口 设备 ， 
例如 许多 个 人 计算 机 。 设 备 丢 弃 到 达 的 字 节 ， 而 耳 去 天 最 后 的 分 组 。 
多 余 的 字 节 可 能 产生 ， 如 在 业 个 以 太 网 设备 上 ， 当 一 个 IP 分 组 的 大 小 比 以 太 网 要 
求 的 最 小 长 度 还 小 时 。 发 送 该 帧 时 加 上 的 多 余 字 节 就 在 这 里 被 丢掉 。 这 就 是 为 什么 
IP 分 组 的 长 度 被 保存 在 首部 的 原因 之 一 ; 卫 允 许 链 路 层 填充 分 组 。 
现在 ， 有 了 完整 的 IP 首 部 ， 分 组 的 逻辑 长 度 和 物理 长 度 相 同 ， 检 验 和 表明 分 组 的 首部 无 
损 地 到 达 。 


8.4.3 转发 或 不 转发 


图 8-13 显 示 了 :ipintr 的 下 一 部 分 ， 调 用 ip_dqooptions( 见 第 9 章 ) 来 处 理 了 王选 项， 然后 
决定 分 组 是 否 到 达 它 最 后 的 目的 地 。 如 果 分 组 没有 到 达 最 后 目的 地 ，Net3 会 尝试 转发 该 分 组 
(如 果 系 统 被 配置 成 路 由 器 )。 如 果 分 组 到 达 最 后 目的 地 ， 就 被 交付 给 合适 的 运输 月 协议 。 


178 7 ip_input.c 
179 * Process options and, if not destined for us, 

180 * ship it on. ip dooptions returns 1 when an 

181 * error was detected (causing an icmp message 

182 * to be sent and the original packet to be freed). 

183 */ 

184 ip nhops - 0; /* for source routed packets */ 

185 if (hlen » sizeof(struct ip) && ip dooptions (m)) 

186 goto next; 

187 /* 

188 * Check our list of addresses, to see if the packet is for us. 
189 */ 

190 for (ia = in ifaddr; ia; ia = ia-»ia next) { 

191 4define satosin(sa) ((struct sockaddr in *) (sa}) 

192 if (IA SIN(ia)-»sin addr.s addr == ip-»ip,.dst.s addr) 

193 goto ours; 

194 /* Only examine broadcast addresses for the receiving interface */ 
195 if (ia-»ia ,ifp == m-»m pkthdr.rcvif && 

196 (ia-»ia ifp-»if flags & IFF BROADCAST)) ( 

197 u Jong t; 

198 if (satosin(&ia-»ia broadaddr)-»sin addr.s addr == 

199 ip-»ip dst.s addr) 

200 goto ours; 

201 if (ip-»ip dst.s, addr == ia-»ia, netbroadcast.s addr) 


图 8-13 ££ipintr 
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202 goto ours; 

203 /* 

204 * Look for all-0's host part (old broadcast addr), 
205 * either for subnet or net. 

206 */ 

207 t = ntohl(ip-»ip.dst.s, addr); 

208 if (t == ia-»ia subnet) 

209 goto ours; 

210 if (t == ia-»ia net) 

211 goto ours; 

212 } 

213 } 

258 if (ip-»ip.dst.s addr == (u_long) INADDR, BROADCAST) 
259 goto ours; 

260 if (ip-»ip dst.s addr == INADDR, ANY) 

261 goto ours; 

262 /* 

263 * Not for us; forward if possible and desirable. 
264 */ 

265 if (ipforwarding -- 0) ( 

266 ipstat.ips, cantforwardt*; 

267 m freem(m); 

268 ) else 

269 ip. forward(m, 0); 

270 goto next; 


271 ours: 


ip input.c 
图 8-13 (X) 


1. 选项 处 理 
178-186 通过 对 ip_nhops( 见 9.6 节 ) 清 零 ， 委 掉 前 一 个 分 组 的 原 路 由 。 如 果 分 组 首部 大 于 
默认 首部 ， 它 必然 包含 由 ip_daooptions 处 理 的 选项 。 如 果 ip_daooptions 返 回 0， 
ipintr 将 继续 处 理 该 分 组 :否则 ，ip_dooptions 通 过 转发 或 丢弃 分 组 完成 对 该 分 组 的 处 
理 ，ipintr 可 以 处 理 输入 队列 中 的 下 一 个 分 组 。 我们 把 对 选项 的 进一步 讨论 放 到 第 9 章 进行 。 

处 理 完 选项 后 ，ipintr 通 过 把 IP 首 部 内 的 ip_dst 与 配置 的 所 有 本 地 接口 的 他 地 址 比较 ， 
以 决定 分 组 是 否 已 到 达 最 终 目的 地 。ipintr 必 须 考虑 与 接口 相关 的 几 个 广播 地 址 、 一 个 或 多 
个 单 播 地 址 以 及 任意 个 多 播 地 址 。 

2. 最 终 目 的 地 
187-261 ipintr 通 过 遍历 in_ifaddqr( 图 6-3)， 配 置 好 的 Internet 地 址 表 ， 来 决定 是 否 有 与 
分 组 的 目的 地 址 的 匹配 。 对 清单 中 的 每 个 in_i faddr 结 构 进 行 一 系列 的 比较 。 要 考虑 4 种 常 
见 的 情况 : 

。 与 某 个 接口 地 址 的 完全 匹配 (图 8-14 中 的 第 一 行 )， 

。 与 某 个 与 接收 接口 相关 的 广播 地 址 的 匹配 (图 8-14 的 中 间 4 行 )， 

。 与 某 个 与 接收 接口 相关 的 多 播 组 之 一 的 匹配 (图 12-39)， 或 

。 与 两 个 受 限 的 广播 地 址 之 一 的 匹配 (图 8-14 的 最 后 一 行 )。 
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图 8-14 显 示 的 是 当 分 组 到 达 我 们 的 示例 网 络 里 的 主机 sun 上 的 以 太 网 接口 时 要 测试 的 地 
址 ， 将 在 第 12 章 中 讨论 的 多 播 地 址 除外 。 
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图 8-14 为 判定 分 组 是 否 到 达 最 终 目 的 地 进行 的 比较 


对 ia_subnet、ia_net 和 INADDR_ANY 的 测试 不 是 必需 的 ， 因 为 它们 表示 的 
是 4.2BSD 使 用 的 已 经 过 时 的 广播 地 址 。 但 不 幸 的 是 ， 许 多 TCPVIP 实 现 是 从 4.2BSD 派 
生 而 来 的 ， 所 以 ， 在 某 些 网 络 中 能 够 识别 出 这 些 旧 广播 地 址 可 能 十 分 重要 。 


3. 转发 
262-271 ”如 果 ip_dst 与 所 有 地 址 都 不 匹配 ， 分 组 还 没有 到 达 最 终 目 的 地 。 如 果 还 没有 设置 
ipforwarding， 就 丢弃 分 组 。 否则 ，ip_forward 尝 试 把 分 组 路 由 到 它 的 最 终 目的 地 。 
当 分 组 到 达 的 某 个 地 址 不 是 目的 地 址 指定 的 接口 时 ， 主 机 会 丢掉 该 分 组 。 在 这 
种 情况 下 ，Net/3 将 搜索 整个 jn_ifaddr 表 ; 只 考虑 那些 分 配给 接收 接口 的 地 址 。 
RFC 1122 £36 A $$ 36 & X (strong end System) 模 型 。 
对 多 主 主机 而 言 ， 很 少 出 现 分 组 到 达 接 口 地 址 与 其 目的 地 址 不 对 应 的 情况 ， 除 
非 配置 了 特定 的 主机 路 由 。 主 机 路 由 强迫 相 邻 的 路 由 器 把 多 主 主机 作为 分 组 的 下 一 
335 dg 2. 8535 A fE(weak end System) 模 型 要 求 该 主机 接收 这 些 分 组 。 实 现 人 员 可 以 
随 总 选择 两 种 模型 。Net3 实 现 弱 端 系统 模型 。 


8.4.4 重 装 和 分 用 


最 后 ， 我 们 来 看 ipintr 的 最 后 一 部 分 (图 8-15)， 在 这 里 进行 重 装 和 分 用 。 我 们 略 去 了 重 
装 的 代码 ， 推 迟到 第 10 章 讨论 。 当 无 法 重 装 完全 的 数据 报时 ， 略 去 的 代码 将 把 指针 ip 设 成 空 。 
否则 ，ip 指 向 一 个 已 经 到 达 目 的 地 的 完整 数据 报 。 

运输 分 用 
325-332 ”数据 报 中 指定 的 协议 被 ip_p 用 ip_protox 数 组 (图 7-22) 映 射 到 inetsw 数 组 的 下 
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标 。ipintr 调 用 选 定 的 protosw 结 构 中 的 pr_input 函 数 来 处 理 数 据 报 包含 的 运输 报 文 。 
当 pr_input 返 回 时 ，ipintr 继 续 处 理 ijpintrq 中 的 下 一 个 分 组 。 

注意 ， 运 输 层 对 分 组 的 处 理发 生 在 ipintr 处 理 循环 的 内 部 。 在 IP 和 传输 协议 之 间 没 有 到 
达 分 组 的 排队 ， 这 与 TCP/IP 中 SVR4 流 实现 的 排队 不 同 。 








ip_input.c 
/* reassembly (Figure 10.11j */ 
325 /* 
326 * If control reaches here, ip points to a complete datagram. 
327 * Otherwise, the reassembly code jumps back to next (Figure 8.11) 
328 * Switch out to protocol's input routine. 
329 */ 
330 ipstat.ips delivered-«s; 
331 (*inetsw[ip protox[ip-»ip pll.pr input) (m, hlen); 
332 goto next; 24 
Ip input.c 


图 8-15 续 ipintr 


8.5 转发 ，ip_forward 函 数 


到 达 非 最 终 目 的 地 系统 的 分 组 需要 被 转发 。 只 有 当 ipforwarding 非 零 (6.1 节 ) 或 当 分 组 
中 包含 源 路 由 (9.6 节 ) 时 ，ipintr 才 调用 实现 转发 算法 的 ijp_forward 函 数 。 当 分 组 中 包含 
源 路 由 上 时，ip_dooptions 调 用 ip_forward， 并 且 第 2 个 参数 srcrt 设 为 1。 
ip_forward 通 过 图 8-16 中 显示 的 route 结 构 与 路 由 表 接 口 。 


route.h 
46 struct route { 
47 struct rtentry *ro rt; /* pointer to struct with information */ 
48 struct sockaddr ro, dst; /* destination of this route */ 
49 ) 
route.h 





图 8-16 route 结 构 


46-49 route 结 构 有 两 个 成 员 ro_rt， 指 向 rtentry 结 构 的 指针 ; ro_dst， 一 个 
sockaddr 结 构 ， 指 定 与 [ro_rt 所 指 的 路 由 项 相关 的 目的 地 。 目 的 地 是 在 内 核 的 路 由 表 中 用 
来 查找 路 由 信息 的 关键 字 。 第 18 章 对 rtentry 结 构 和 路 由 表 有 详细 的 描述 。 

我 们 分 两 部 分 讨论 ip_forward。 第 一 部 分 确定 允许 系统 转发 分 组 ， 修 改正 首部 ， 并 为 分 
组 选择 路 由 。 第 二 部 分 处 理 ICMP 重 定向 报 文 ， 并 把 分 组 交 给 ip_output 进 行 发 送 。 见 图 8-17。 

1. 分 组 适合 转发 吗 
867-871 ip_froward 的 第 1 个 参数 是 指向 一 个 mbuf 链 的 指针 ， 该 mbuf 中 包含 了 要 被 转发 
的 分 组 。 如 果 第 2 个 参数 srcrt 为 非 零 ， 则 分 组 由 于 源 路 由 选项 ( 见 9.6 节 ) 正 在 被 转发 。 
879-884 -if 语句 识别 并 丢弃 以 下 分 组 。 

。 链 路 层 广 播 

任何 支持 广播 的 网 络 接口 驱动 器 必须 为 收 到 的 广播 分 组 把 M_BCAST 标 志 置 位 。 如 果 分 组 
寻 址 是 到 以 太 网 广播 地 址 ， 则 ether_input( 图 4-13) 就 把 M_BCAST 置 位 。 不 转发 链 路 层 的 广 
播 分 组 。 
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RFC 1122 不 允许 以 链 路 层 广 播 的 方式 发 送 一 个 寻 址 到 单 播 I 了 地址 的 分 组 ， 并 在 

过 里 将 该 分 组 丢掉 。 

" 环 回 分 组 

对 寻 址 到 环 回 网 络 的 分 组 ，in_canforward 返 回 0。 这 些 分 组 将 被 ipincr 提 交 给 1P_ 
forward， 因 为 没有 正确 配置 反馈 接口 。 

* 网络 0 和 E 类 地 址 

对 这 些 分 组 ，in_canforward 返 回 0。 这 些 目 的 地 址 是 无 效 的 ， 而 且 因为 没有 主机 接收 
这 些 分 组 ， 所 以 它们 不 应 该 继续 在 网 络 中 流动 。 

。D 类 地 址 

寻 址 到 D 类 地 址 的 分 组 应 该 由 多 播 国 数 ip_mftorward 而 不 是 由 ipP_forwara 处 理 。 
in_canftorward 拒 绝 D 类 (多 播 ) 地 址 。 

RFC 791 规定 处 理 分 组 的 所 有 系统 都 必须 把 生存 时 间 (TTL) 字 段 至 少 减 去 1， 即 使 TTL 是 
以 秒 计算 的 。 由 于 这 个 要 求 ，TTL 通 常 被 认为 是 对 IP 分 组 在 被 丢掉 之 前 能 经 过 的 跳 的 个 数 的 
界限 。 从 技术 角度 说 ， 如 果 路 由 器 持 有 分 组 超过 1 秒 ， 就 必须 把 ip_tti 减 去 多 于 1。 





867 void pimput.c 
868 ip forward(m, srcrt) 

869 struct mbuf *m; 

870 int srcrt; 

871 ( 

872 struct ip *ip - mtod(m, struct ip *); 

873 struct sockaddr in *sin; 

874 struct rtentry *rt; 

875 int error, type = 0, code; 

876 struct mbuf *mcopy; 

877 n long dest; t 

878 Struct ifnet *destifp; 

879 dest - 0; 

880 if (m-»m flags & M BCAST || in canforward(ip-»ip dst) == O) ( 
881 ipstat.ips cantforward**; 

882 m, freem(m); 

883 return; 

884 J 

885 HTONS (ip-»ip id); 

886 if (ip-»ip ttl «- IPTTLDEC) ( 

887 icmp error(m, ICMP, TIMXCEED, ICMP TIMXCEED INTRANS, dest, 0); 
888 return; 

889 ) 

890 ip-»ip ttl -- IPTTLDEC; 

891 sin = (struct sockaddr in *) &ipforward rt.ro dst; 
892 if ((rt = ipforward rt.ro rt) == 0 || 

893 ip-»ip dst.s addr !- sin-»sin addr.s addr) ( 
894 if (ipforward rt.ro rt) ( 

895 RTFREE(ipforward rt.ro rt); 

896 ipforward rt.ro rt = 0; 

897 H 

898 Sin-»sin family - AF INET; 

899 sin-»sin len = sizeof(*sin); 

900 Sin-»sin addr = ip-»ip dst; 

901 rtalloc(&ipforward rt); 


图 8-17 ip_forward 国 数 : 路 由 选择 
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902 if (ipforward rt.ro rt == 0) { 

903 icmp  error(m, ICMP UNREACH, ICMP UNREACH HOST, dest, 0); 

904 return; 

905 ) 

906 rt = ipforward rt.ro, rt; 

907 

908 /* 

909 * Save at most 64 bytes of the packet in case 

910 * we need to generate an ICMP message to the src. 

911 */ 

912 mcopy = m copy(m, 0, imin((int) ip-»ip len, 64)); 

913 ip ifmatrix[rt-»rt ifp-»if index + 

914 if index * m-»m pkthdr.rcvif-»if index]**; 2. 

Ip input.c 

图 8-17 (£3) 


这 就 产生 了 一 个 问题 : 在 Internet 上 ， 最 长 的 路 径 有 多 长 ? 这 个 度量 称 为 网 络 的 
直径 (diameter)。 除 了 通过 实验 外 无 法 知道 直径 的 大 小 。[Olivier 1994] 中 有 37 跳 的 路 
f$. . 

2. i TTL 
885-890 由 于 转发 时 不 再 需要 分 组 的 标识 符 ， 所 以 标识 符 又 被 转换 回 网 络 字 节 序 。 但 是 当 
ip_forward 发 送 包含 无 效 IP 首 部 的 ICMP 差 错 报 文 时 ， 分 组 的 标识 符 又 应 该 是 正确 的 须 
序 。 

Net/3 澳 做 了 对 已 被 ipintr 转 换 成 主机 字 节 序 的 ip_1en 的 转换 。 作 者 注意 到 在 

大 头 机 器 上 ， 这 不 会 产生 问题 ， 因 为 从 末 对 字 节 进行 过 转换 。 但 在 小 头 机 器 如 386 上 ， 

这 个 小 的 漏洞 允许 交换 了 字 节 的 值 在 ICMP 差 错 中 的 下 首部 中 。 返 回 从 运行 在 386 上 

的 SVR4( 可 能 是 NeU1 码 ) 和 AIX3.2(4.3BSD Reno 码 ) 返 回 的 ICMP 分 组 中 可 以 观察 到 这 

个 小 的 漏洞 。 

如 果 ip_Et1 达 到 1(IPTTLDEC)， 则 向 发 送 方 返回 一 个 ICMP 超 时 报 文 ， 并 丢掉 该 分 组 。 
dj. ip forwardf&Bip ttlM&Z;rPTTLDEC. . 

系统 不 接受 TTL 为 0 的 IP 数 据 报 ， 但 Net/3 在 即使 出 现 这 种 情况 时 也 能 生成 正确 的 ICMP 差 
错 ， 因 为 p_tt1 是 在 分 组 被 认为 是 在 本 地 交付 之 后 和 被 转发 之 前 检测 的 。 

3. 定位 下 一 跳 
891-907 ”IP 转发 算法 把 最 近 的 路 由 缓存 在 全 局 route 结 构 的 ijpforward_rt 中 ， 在 可 能 时 
应 用 于 当前 分 组 .研究 表明 连续 分 组 趋向 于 同一 目的 地 址 ([Jain 和 Routhier 1986] 和 [Mogul 
1991])， 所 以 这 种 向 后 一 个 (one-behind) 的 缓存 使 路 由 查询 的 次 数 最 少 。 如 果 缓 存 为 空 
(ipforward_rt) 或 当前 分 组 的 目的 地 不 是 ijpforward_rt 中 的 路 由 ， 就 取消 前 面 的 路 由 ， 
ro_dst 被 初始 化 成 新 的 目的 地 ，rtalloc 为 当前 分 组 的 目的 地 找 一 个 新 路 由 。 如 果 找 不 到 
路 由 ， 则 返回 一 个 ICMP 主 机 不 可 达 差 错 ， 并 丢掉 该 分 组 。 
908-914 ”由 于 在 产生 差错 时 ，ip_output 要 丢掉 分 组 ， 所 以 m_copy 复 制 分 组 的 前 64 个 字 
节 ， 以 便 ip_forward 发 送 ICMP 差 错 报 文 。 如 果 调 用 m_copy 失 败 ，ip_forward 并 不 终止 。 
在 这 种 情况 下 ， 不 发 送 差错 报 文 。ip_ifmatrix 记 录 在 接口 之 间 进 行路 由 选择 的 分 组 的 个 
数 。 有 具有 接收 和 发 送 接口 索引 的 计数 器 是 递增 的 。 


PEF IP: ARAR 177 


重 定向 报 文 


当主 机 错误 地 选择 某 个 路 由 器 作为 分 组 的 第 一 跳 路 由 器 时 ， 该 路 由 器 向 源 主机 返回 一 个 
ICMP 重 定向 报 文 。 下 网 络 互 连 模型 假定 主机 相对 地 并 不 知道 整个 互联 网 的 拓扑 结构 ， 把 维护 
正确 路 由 选择 的 责任 交 给 路 由 器 。 路 由 器 发 出 重 定向 报 文 是 向 主机 表明 它 为 分 组 选择 了 一 个 
不 正确 的 路 由 。 我 们 用 图 8-18 说 明 重 定向 报 文 。 





一 一 一 “ne 


默认 网 络 日 的 网 络 
图 8-18 路 由 器 Ri 重 定向 主机 HS 使 用 路 由 器 R2 到 达 HD 


通常 ， 管 理 员 对 主机 的 配置 是 : 把 到 远程 网 络 的 分 组 发 送 到 某 个 默认 路 由 器 上 。 在 图 8-18 
中 ， 主 机 HS 上 R1 被 配置 成 它 的 默认 路 由 器 。 当 HS 首次 向 HP 发 送 分 组 时 ， 它 不 知道 R2 是 合适 
的 选择 ， 而 把 分 组 发 给 R1。R1 识 别 出 差 错 ， 就 把 分 组 转发 给 R2， 并 向 HS 发 回 一 个 重 定向 报 
文 。 接 收 到 重 定向 报 文 后 ，HS 更 新 它 的 路 由 表 ， 下 一 次 发 往 HD 的 分 组 就 直接 发 给 R2。 

RFC 1122 推 荐 只 有 路 由 器 才 发 重 定 向 报 文 ， 而 主机 在 接收 到 ICMP 重 定向 报 文 后 必须 更 新 
它们 的 路 由 表 (11.8 节 )。 因 为 Net/3 只 在 系统 被 配置 成 路 由 器 时 才 调 用 ip_forward， 所 以 
Net/3 采 用 RFC 1122 的 推荐 。 

在 图 8-19 中 ，ip_.forward 决 定 是 否 发 重 定向 报 文 。 

l. 在 接收 接口 上 离开 吗 
915-929 路 由 器 识别 重 定向 情况 的 规则 很 复杂 。 首 先 ， 只 有 在 同一 接口 (rt._ifp 和 和 
rcvif) 上 接收 或 重 发 分 组 时 ， 才 能 应 用 重 定向 。 其 次 ， 被 选择 的 路 由 本 身 必 须 没 有 被 ICMP 
重 定向 报 文 创建 或 修改 过 (RTF_DYNAMIC1RTF_MODIFIED)， 而 且 该 路 由 也 不 能 是 到 默认 目 
的 地 的 (0.0.0.0)。 这 就 保证 系统 在 未 授权 时 不 会 生成 路 由 选择 信息 ， 并 且 不 与 其 他 系统 共享 自 
己 的 默认 路 由 。 

通常 ， 路 由 选择 协议 使 用 特殊 目的 地 址 0.0.0.0 定 位 默认 路 由 。 当 到 某 目的 地 的 某 

个 路 由 不 能 使 用 时 ,与 目的 地 0.0.0.0 相 关 的 路 由 就 把 分 组 定向 到 一 个 默认 路 由 器 上 。 
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第 18 章 对 默认 路 由 有 详细 的 讨论 。 
全 局 整数 ipsendredirects 指 定 系 统 是 否 被 授权 发 送 重 定向 (第 8.9 节 )， 
ipsendredirects 的 默认 值 为 1!。 当 传 给 ip_forward 的 参数 srcrt 指 明 系 统 是 对 分 组 路 
由 选择 的 源 时 ， 禁 止 系 统 重 定向 ， 因 为 假定 源 主 机 要 覆盖 中 间 路 由 器 的 选择 。 





915 7 tp. input.c 
916 * If forwarding packet is using same interface that it came in on, 
917 * perhaps should send a redirect to sender to shortcut a hop. 

918 * Only send redirect if source is sending directly to us, 

919 * and if packet was not source routed (or has any options). 

920 * Also, don't send redirect if forwarding using a default route 
921 * or a route modified by a redirect. 

922 */ 

923 #define satosin(sa) ((struct sockaddr in *) (sa)) 

924 if (rt-»rt ifp == m-»m pkthdr.rcvif && 

925 (rt-»rt flags & (RTF DYNAMIC | RTF MODIFIED)) == 0 && 

926 satosin(rt key(rt))-»sin addr.s addr !- 0 && 

927 ipsendredirects && !srcrt) { 

928 #define RTA(rt) ((struct in ifaddr *)(rt-»rt ifa)) 

929 u.long src = ntohl(ip-»ip src.s addr); 

930 if (RTA(rt) && 

931 (src & RTA(rt)-»ia subnetmask) == RTA(rt)-»ia subnet) (. 
932 if (rt-»rt flags & RTF GATEWAY) 

933 dest = satosin(rt-»rt gateway)-»sin, addr.s addr; 

934 else 

935 dest = ip-»ip dst.s addr; 

936 /* Router requirements says to only send host redirects */ 
937 type - ICMP REDIRECT; 

938 code - ICMP REDIRECT HOST; 

939 ) 

940 } 


ip_input.c 
图 8-19 ip_forward( 续 ) 


2. 发 送 重 定向 吗 
930-931 ”这 个 测试 决定 分 组 是 否 产 生 于 本 地 子 网 。 如 果 源 地 址 的 子 网 掩 码 位 和 输出 接口 的 
地 址 相同 ， 则 两 个 地 址 位 于 同一 下 网 络 中 。 如 果 源 接口 和 输出 的 接口 位 于 同一 网 络 中 ， 则 该 
系统 就 不 应 该 接收 这 个 分 组 ， 因为 源 站 可 能 已 经 把 分 组 发 给 正确 的 第 一 跳 路 由 器 了 。ICMP 重 
定向 报 文告 诉 主机 正确 的 第 一 跳 目的 地 。 如 果 分 组 产生 于 其 他 子 网 ， 则 前 一 系统 是 个 路 由 器 ， 
这 个 系统 就 不 应 该 发 重 定向 报 文 ; 差错 由 路 由 选择 协议 纠正 。 

在 任何 情况 下 ， 都 要 求 路 由 器 忽略 重 定向 报 文 。 尽管 如 此 ， 当 ipforwarding 

被 置 位 时 (也 就 是 说 ， 当 它 被 配置 成 路 由 器 时 )，Net/3 并 不 丢 撞 重 定向 报 文 。 

3. 选择 合适 的 路 由 器 
932-940 TICMP 重 定向 报 文中 包含 正确 的 下 一 个 系统 的 地 址 ， 各 果 目 的 主机 不 在 直接 相连 的 
网 络 上 时 ， 该 地 址 是 一 个 路 由 器 的 地 址 ; 当 目的 主机 在 直接 相连 的 网 络 中 时 ， 该 地 址 是 主机 
地 址 。 

RFC 792 描 述 了 重 定向 报 文 的 4 种 类 型 : (1) 网 络 ; (2) 主 机 ; (3)TOS 和 网 络 ; (4)TOS 和 主 
机 。RFC 1009 推 荐 在 任何 时 候 都 不 发 送 网 络 重 定 向 报 文 ， 因 为 无 法 保证 接收 到 重 定向 报 文 的 
主机 能 为 目的 网 络 找 到 合适 的 子 网 掩 码 。RFC 1122 推 荐 主机 把 网 络 重 定向 看 作 是 主机 重 定 向 ， 
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以 避免 二 义 性 。Net3 只 发 送 主机 重 定向 报 文 ， 并 省 略 所 有 对 TOS 的 考虑 。 在 图 8-20 中 ， 
ipintz 把 分 组 和 所 有 的 ICMP 报 文 提 交 给 链 路 层 。 


941 error = ip output(m, (struct mbuf *) 0, &ipforward rt, ip input.c 

942 IP FORWARDING | IP ALLOWBROADCAST, 0); 

943 if (error) 

944 ipstat.ips, cantforward-**; 

945 else ( 

946 ipstat.ips forward**; 

947 if (type) 

948 ipstat.ips redirectsent-«-*; 

949 else ( 

950 if (mcopy) 

951 m freem(mcopy); 

952 return; 

953 } 

954 } 

955 if (mcopy == NULL) 

956 return; 

957 destifp = NULL; 

958 switch (error) ( 

959 case 0: /* forwarded, but need redirect */ 

960 /* type, code set above */ 

961 break; 

962 case ENETUNREACH: /* shouldn't happen, checked above */ 

963 case EHOSTUNREACH: 

964 case ENETDOWN: 

965 case EHOSTDOWN: 

966 default: 

967 type - ICMP UNREACH; 

968 code - ICMP UNREACH HOST; 

969 break; 

970 Case EMSGSIZE: 

971 type = ICMP UNREACH; 

972 code - ICMP UNREACH NEEDFRAG; 

973 if (ipforward rt.ro rt) 

974 destifp - ipforward rt.ro rt-»rt ifp; 

975 ipstat.ips cantfrag**; 

976 break; 

977 case ENOBUFS: 

978 type - ICMP SOURCEQUENCH; 

979 code = 0; 

980 break; 

981 ) 

982 icmp error(mcopy, type, code, dest, destifp):; 

983 ) | 
ip. input.c 





"8-20 ip forward ( 续 ) 


重 定向 报 文 的 标准 化 是 在 子 网 化 之 前 ， 在 一 个 非 子 网 化 的 互联 网 中 ， 网 络 重 定 
向 很 有 用 ， 但 在 一 个 子 网 化 的 互联 网 中 ， 由 于 重 定向 报 文 中 没有 有 关子 网 掩 码 的 信 
息 ， 所 以 容易 产生 二 义 性 。 
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4. 转发 分 组 
941-954 现在 ip_forward 有 一 个 路 由 ， 并 决定 是 否 需要 ICMP 重 定向 报 文 。IP_ 
output 把 分 组 发 送 到 路 由 ipforward_rt 所 指定 的 下 一 跳 。IP_ALLOWBROADCAST 标 志 位 
允许 被 转发 分 组 是 个 到 某 局 域 网 的 广播 。 如 果 ip_output 成 功 ， 并 且 不 需要 发 送 任何 重 定向 
报 文 ， 则 丢掉 分 组 的 前 64 字 节 ，jip_forward 返 回 。 

5. 发 送 ICMP 差 错 报 文 ? 

955-983 ip_forward 可 能 会 由 于 ip_output 失 败 或 重 定向 而 发 送 ICMP 报 文 。 如 果 没 有 
原始 分 组 的 复制 (可 能 当 要 复制 时 ， 曾 经 缓存 不 足 )， 则 无 法 发 送 重 定向 报 文 ，ip_forward 
返回 。 如 果 有 重 定向 ，type 和 code 以 前 又 被 置 位 ， 但 如 果 ip_output 失 败 ，switch 语 句 
基于 从 ip_output 返 回 的 值 重新 设置 新 的 ICMP 类 型 和 码 值 。icmp_error 发 送 该 报 文 。 来 
自 失败 的 jp_output ICMP 报 文 将 覆盖 任何 重 定向 报 文 。 

处 理 来 自 ip_output 的 差错 的 switch 语 句 非 常 重要 。 它 把 本 地 差错 翻译 成 适当 的 ICMP 
差错 报 文 ， 并 返回 给 分 组 的 源 站 。 图 8-21 对 差错 作 了 总 结 。 第 11 章 更 详细 地 描述 了 ICMP 报 
文 。 

当 ip_output 返 回 ENOBUFS 时 ，Net/3 通 常生 成 ICMP 源 站 抑制 报 文 。Router 

Requirements( 路 由 器 需求 )RFC [AlmquistfeKastenholz 1994] 不 鞠 成 源 站 抑制 并 要 求 

路 由 器 不 产生 这 种 报 文 。 





来 白 ip_oucput 的 差错 码 生成 的 LCMP 报 文 

EMSGSIZE ICMP. UNREACH, NEEDFRAG 对 所 选 的 接口 来 说 ， 发 出 的 分 组 大 大 ， 
并 且 桂 止 分 片 ( 第 10 章 ) 

ENOBUFS ICMP. SOURCEQUENCH 接口 队列 满 或 内 核 运 行内 存 不 足 。 本 报 
文 向 源 主 机 指示 降低 数据 率 


EHOSTUNREACH 找 不 到 到 主机 的 路 由 
ENETDOWN 路 由 指明 的 输出 接口 没 在 运行 
EHOSTDOWN ICMP UNREACH HOST 接口 无 法 把 分 组 发 给 选 定 的 主机 
default 所 有 不 识别 的 差错 均 作为 

ICMP, UNREACH, HOST2ESHB te 








图 8-21 来 自 ip_output 的 差错 


8.6 输出 处 理 : iP_output Až 


IP 输 出 代码 从 两 处 接收 分 组 : ip_forward 和 运输 协议 (图 8-1)。 让 inektswfi0] 
.pr_output 能 访问 到 IP 输 出 操作 似乎 很 有 道理 ， 但 事实 并 非 如 此 。 标 准 的 Internet 传 输 协 议 
(ICMP、IGMP、UDP 和 TCP) 直 接 调 用 ip_output， 而 不 查询 inetsw 表 。 对 标准 Internet 传 
输 协议 而 言 ，protosw 结 构 不 必 具 有 一 般 性 ， 因 为 调用 匈 数 并 不 是 在 与 协议 无 关 的 情况 下 接 
入 IP 的 。 在 第 20 章 中 ， 我 们 将 看 到 与 协议 无 关 的 路 由 选择 插口 调用 pr_output 接 入 IP。 

我 们 分 三 个 部 分 描述 ip_ output: 

。 首 部 初始 化 ; 

。 路 由 选择 ; 和 

。 源 地 址 选择 和 分 片 。 
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8.6.0 首部 初始 化 


图 8-22 显 示 了 ip_output 的 第 一 部 分 ， 把 选项 与 外 出 的 分 组 合并 ， 完 成 传输 协议 提交 (不 
是 ip_forward 提 交 的 ) 的 分 组 首部 。 
44-59 传 给 ijp_output 的 参数 包括 : m0， 要 发 送 的 分 组 ; opt， 包 含 的 下 选 项 ; ro， 缓存 
的 到 目的 地 的 路 由 ，flags， 见 图 8-23; imo， 指 向 多 播 选项 的 指针 ， 见 第 12 章 。 
IP_FORWARDING 被 ijp_forward 和 ip_mforward (多 播 分 组 转发 ) 设置 ， 并 禁止 
ip_output 重 新 设置 任何 IP 首 部 字段 。 





44 int ip output.c 

45 ip output(m0, opt, ro, flags, imo) 

46 struct mbuf *m0; 

47 struct mbuf *opt; 

48 struct route *ro; 

49 int flags; 

50 struct ip moptions *imo; 

51 ( 

52 struct ip *ip, *mhip; 

53 struct ifnet *ifp; 

54 struct mbuf *m = m0; 

55 int hlen = sizeof(struct ip); 

56 int len, off, error = Q; 

57 struct route iproute; 

58 struct sockaddr in *dst; 

59 struct in ifaddr *ia; 

60 if (opt) ( 

61 m = ip insertoptionsím, opt, kien); 

62 hlen - len; 

63 H 

64 ip = mtod(m, struct ip *); 

65 /* 

66 * Fill in IP header. 

67 */ 

68 if ((flags & (IP FORWARDING | IP RAWOUTPUT) == 0) ( 

69 ip-»ip v - IPVERSION; 

70 ip-»ip off &- IP DF; 

71 ip-»ip id = htons(ip id-**); 

72 ip-»ip hl - hlen »» 2; 

73 ipstat.ips localout++; 

74 ) else ( 

75 hlen = ip-»ip hl << 2; 

76 } 。 
ip output.c 


[8-22 dip output 


IP FORWARDING 这 是 一 个 转发 过 的 分 组 


IP ROUTETOIF 忽略 路 由 表 ， 直 接 路 由 到 接口 
IP ALLOWBROADCAST | 人 允许 发 送 广播 分 组 
IP_RAWOUTPUT 包含 一 个 预 构 IP 首 部 的 分 组 





图 8-23 ip output: flag 值 
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send、sendto 和 sendmsg 的 MSG_DONTROUTE 标 志 使 I1P_ROUTETOIF 有 效 ， 并 进行 一 
次 写 操作 ( 见 16.4)， 而 SO0_DONTROUTE 插 口 选项 使 TI[P_ROUTETOIF 有 效 ， 并 在 某 个 特定 插口 
上 进行 任意 的 写 操作 ( 见 8.8 节 )。 该 标志 被 传输 协议 传 给 ip_ output, 

IP_ALLOWBROADCRAST 标 志 可 以 被 SO_BRORADCAST 揪 日 选项 ( 抑 8.8 节 ) 设 置 ， 但 只 被 UDP 
提交 。 原 来 的 IP 默 认 地 设置 1P_ALLOWBROADCAST。TCP 不 支持 广播 ， 所 以 IP_ 
ALLOWBROADCAST 不 能 被 TCP 提 交 给 ip_output。 不 存在 广播 的 预 请 求 标志 。 

1. 构造 IP 首 部 
60-73 如 果 调 用 程序 提供 任何 卫 选 项 , 它们 将 被 ip_insertoptions( 见 9.8 节 ) 与 分 组 合并 ， 
并 返回 新 的 首部 长 度 。 

我 们 将 在 8.8 千 中 看 到 ， 进 程 可 以 设置 I1P_OPTIONS 插 口 选项 来 为 一 个 插口 指定 IP 选 项 。 
插口 的 运输 层 (TCP 或 UDP) 总 是 把 这 些 选项 提交 给 ip_output。 

被 转发 分 组 (IP_FORWARDING) 或 有 预 构 首部 (IP_RAWOUTPUT) 分 组 的 下 首部 不 能 被 ip_ 
output 修 改 。 任 何其 他 分 组 (例如 ， 产 生 于 这 个 主机 的 UDP 或 TCP 分 组 ) 需 要 有 几 个 1P 首 部 字 
段 被 初始 化 。ip_output 把 ip_v 设 置 成 4(IPVERSION)， 把 DF 位 需要 的 ip_off 清 零 ， 并 设 
SU VL EHE HERR ACA 103€),. 262€ EU EC ip Sip idBb — 7 ME--BUERTHTT, dE 
ip_id 加 1。ip_id 是 在 协议 初始 化 时 由 系统 时 钟 设置 的 ( 见 7.8 节 )。ip_hl1 被 设置 成 用 32 bit 
字 度 量 的 首部 长 度 。 

IP 首 部 的 其 他 字段 一 一 长 度 、 偏 移 、TTL、 协 议 、TOS 和 目的 地 址 一 一 已 经 被 传输 协议 初 
始 化 了 。 源 地 址 可 能 没 被 设置 ， 因 为 是 在 确定 了 到 目的 地 的 路 由 后 选择 的 (图 8-25)。 

2. 分 组 已 经 包括 首部 
74-76 ”对 一 个 已 转发 的 分 组 (或 一 个 有 首部 的 原始 IP 分 组 )， 首 部 长 度 ( 以 字 节 数 度量 ) 被 保存 
在 hlen 中 ， 留 给 将 来 分 片 算法 使 用 。 


8.6.2 路 由 选择 
在 完成 了 P 首 部 后 ，ip_output 的 下 一 个 任务 就 是 确定 一 条 到 目的 地 的 路 由 。 见 图 8-24 所 


^o 


77 7* ip output.c 
78 * Route packet. 

79 */ 

80 if (ro == 0) ( 

81 ro = &iproute; 

82 bzero((caddr t) ro, sizeof(*ro)); 

83 ) 

84 dst = (struct sockaddr in *) &ro-»ro dst; 

85 /* 

86 * If there is a cached route, 

87 * check that it is to the same destination 

88 * and is still up. If not, free it and try again. 

89 */ t 

90 if (ro-»ro rt && ((ro-»ro rt-»rt flags & RTF UP) -- 0 11 

91 dst-»Sin, addr.s addr !- ip-»ip dst.s addr)) ( 
92 RTFREE (ro-»ro, rt); 

93 ro-»ro rt = (struct rtentry *) 0; 

94 ) 


图 8-24 ip output (£$) 
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95 if (ro-»ro rt == 0) ( 
96 dst-»sin family = AF INET; 
97 dst-»sin,len = sizeof(*dst); 
98 dst-»sin addr = ip-»ip dst; 
99 } 
100 /* 
101 * If routing to interface only, 
102 * short circuit routing lookup. 
103 */ 
104 #define ifatoia(ifa) ((struct in ifaddr *)(ifa)) 
105 #define sintosa(sin) ((struct sockaddr *) (sin)) 
106 if (flags & IP ROUTETOIF) ( 
107 if ((ia = ifatoia(ifa ifwithdstaddr(sintosa(dst)))) z- 0 && 
108 (ia = ifatoia(ifa ifwithnet(sintosa(dst)))) == 0) ( 
109 ipstat.ips noroute--; 
110 error - ENETUNREACH; 
111 goto bad; 
112 } 
113 ifp = ia-»ia ifp; 
114 ip-»ip ttl - 1; 
115 ) else ( 
116 if (ro-»ro rt == O0) 
117 rtalloc (ro); 
118 if (ro-»ro rt == 0) ( 
119 ipstat.ips noroute-«*; 
120 error - EHOSTUNREACH; 
121 goto bad; 
122 ) 
123 ia = ifatoia(ro-»ro rt-»rt, ifa); 
124 ifp = ro-»ro rt-»rt ifp:; 
125 ro-»ro rt-»rt useet; 
126 if (ro-»ro rt-»rt flags & RTF, GATEWAY) 
127 dst - (struct sockaddr in *) ro-»ro rt-»rt, gateway; 
128 } 
/* multicast destination (Figure 12.40) */. 
ip output.c 





图 8-24 (£$) 


1. 验证 高 速 绥 存 中 的 路 由 
77-99 ip_output 可 能 把 一 条 在 高 速 缓存 中 的 路 由 作为 ro 参数 来 提供 。 在 第 24 章 中 ， 我 们 
将 看 到 UDP 和 TCP 维 护 一 个 与 各 播 口 相关 的 路 由 缓存 。 如 果 没 有 路 由 ， 则 ip_output 把 ro 设 
置 成 指向 临时 route 结 构 iproute。 | 

如 果 高 速 绥 存 中 的 目的 地 不 是 去 当前 分 组 的 目的 地 ， 就 把 该 路 由 丢掉 ， 新 的 目的 地 址 放 
在 dst 中 。 - 

2. 旁 路 路 由 选择 
100-114 ”调用 方 可 通过 设置 1P_ROUTETOIF 标志 ( 见 8.8 节 ) 禁 止 对 分 组 进行 路 由 选择 。 
ip_output 必 须 找到 一 个 与 分 组 中 指定 目的 地 网 络 直接 相连 的 接口 。 
ifa_ifwithdstaddr 搜 索 点 到 点 接口 ， 而 in_ifwithnet 搜 索 其 他 接口 。 如 果 任 一 函数 
找到 与 目的 网 络 相连 的 接口 ， 就 返回 ENETUNREACH; 否则 ，i fp 指向 选 定 的 接口 。 


这 个 选项 允许 路 由 选择 协议 绕 过 本 地 路 由 表 ， 并 使 分 组 通过 某 特定 接口 退出 系 
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统 。 通 过 这 个 方法 ， 即 使 本 地 路 由 表 不 正确 ， 也 可 以 与 其 他 路 由 器 交换 路 由 选择 信 


"x 


3. 本 地 路 由 

115-122 如 果 分 组 正 被 路 由 选择 (ITP_ROUTETOTE 为 关 状 态 )， 并 且 没 有 其 他 缓存 的 路 由 ， 
则 ztalloc 找 到 一 条 到 Qst 指 定 地 址 的 路 由 。 如 果 *tal1loc 没 找到 路 由 ， 则 ip_ output 返 
同 EHOSTUNREACH。 如 果 ip_forward 调 用 ip_output， 就 把 EHOSTUNREACH 转 换 成 
ICMP 差 错 。 如 果菜 个 传输 协议 调用 ip_output， 就 把 差错 传 回 给 进程 (图 8-21)。 

123-128 ia 被 设 成 指向 选 定 接口 的 地 址 (i faddr 结 构 )， 而 ifp 指 向 接口 的 1fnet 结 构 。 如 
果 下 一 跳 不 是 分 组 的 最 终 目 的 地 ， 则 把 ast 改 成 下 一 跳 路 由 器 地 址 ， 而 不 再 是 分 组 最 终 目的 
地 址 。IP 首 部 内 的 上 月 的 地 址 不 变 ， 但 接口 层 必 须 把 分 组 提交 给 dst， 即 下 一 跳 路 由 器 。 


8.6.8 源 地 址 选择 和 分 片 


ip_output 的 最 后 一 部 分 如 图 8-2S 所 示 ， 保 证 耻 首 部 有 一 个 有 效 源 地 址 ， 然 后 把 分 组 提 
交 给 与 路 由 相关 的 接口 。 如 果 分 组 比 接口 的 MTU 大 ， 就 必须 对 分 组 分 片 ， 然 后 一 片 一 片 地 发 
送 。 像 前 面 的 重 装 代码 一 样 ， 我 们 省 略 了 分 片 代 码 ， 并 推迟 到 第 10 章 再 讨论 。 


212 
213 
214 
215 
216 
217 
218 
219 
220 
221 
222 
223 
224 
225 
226 
227 
228 
229 
230 
231 
232 
233 
234 
235 
236 
237 
238 
239 


240 
241 
242 
243 
244 





去 ip output.c 
* If source address not specified yet, use address 
* of outgoing interface. 
*/ 
if (ip-»ip src.s addr == INADDR ANY) 
ip-»ip src = IA SIN(ia)-»sin addr; 
/ * 
* Look for broadcast address and 
* verify user is allowed to send 
* Such a packet. 
*/ 
if (in broadcast(dst-»sin addr, ifp)) ( 
if ((ifp-»if flags & IFF BROADCAST) == 0) ( /* interface check */ 
error - EADDRNOTAVAIL; 
goto bad; 
} 
if ((flags & IP ALLOWBROADCAST) == 0) ( /* application check */ 
error - EACCES; ` 
goto bad; 
H 
/* don't allow broadcast messages to be fragmented */ 
if ((u short) ip-»ip len > ifp-»if mtu) ( 
error - EMSGSIZE; 
goto bad; 
) 
m-»m flags |- M BCAST; 
) else 
m-»m flags &- "M BCAST; 


* If small enough for interface, can just send directly. 
*/ 
if ((u,.short) ip-»ip len <= ifp-»if mtu) ( 


图 8-25 ip output ( 续 ) 
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245 ip-»ip len - htons((u short) ip-»ip len); 

246 ip-»ip off - htons((u short) ip-»ip off); 

247 ip-»ip. sum - 0; 

248 ip-»ip sum = in, cksum(m, hlen); 

249 error - (*ifp-»if output) (ifp, m, 

250 - (struct sockaddr *) dst, ro->ro_rt); 
251 goto done; 

252 } 


/* fragmentation (Section 10.3) */ 


339 done: 
340 if (ro == &iproute && (flags & IP_ROUTETOIF) == 0 && ro-»ro rt) 
341 RTFREE(ro-»ro rt); 
342 return (error); 
343 bad: 
344 m freem(m0); 
345 goto done; 
346 ) . 
Ip output.c 
图 8-25 ( 续 ) 
1. 选择 源 地 址 


212-239 如 果 没 有 指定 ip_src， 则 ip_output 选 择 输出 接口 的 下 地 址 ia 作为 源 地 址 。 这 
不 能 在 早期 填充 其 他 IP 首 部 字段 时 做 ， 因 为 那 时 还 没有 选 定 路 由 。 转 发 的 分 组 通常 都 有 一 个 
源 地 址 ， 但 是 ， 如 果 发 送 进程 没有 明确 指定 源 地 址 ， 产 生 于 本 地 主机 的 分 组 可 能 没有 源 地 址 。 

如 果 目 的 IP 地 址 是 一 个 广播 地 址 ， 则 接口 必须 支持 广播 (IFF_BROADCAST， 图 3-7)， 调 
用 方 必须 明确 使 能 广播 (IP_ALLOWBROADCAST， 图 8-23)， 而 分 组 必须 足够 小 ， 无 需 分 片 。 

最 后 的 测试 是 一 个 策略 决定 。IP 协 议 规范 中 没有 明确 禁止 对 广播 分 组 的 分 片 。 但 

是 ， 要 求 分 组 适合 接口 的 MTU， 就 增加 了 广播 分 组 被 每 个 接口 接收 的 机 会 ， 因 为 接 

收 一 个 未 损坏 的 分 组 的 机 会 要 远大 于 接收 两 个 或 多 个 未 损坏 分 组 的 机 会 。 

如 果 这 些 条 件 都 不 满足 ， 就 扔 掉 该 分 组 ， 把 EADDRNOTAVAIL、EACCES 和 EMSGSIZE 返 
回 给 调用 方 。 否 则 ， 设 置 输出 分 组 的 M_BCRAST， 告 诉 接口 输出 函数 把 该 分 组 作为 链 路 级 广播 
发 送 。21.20 节 中 ， 我 们 将 看 到 arpresolve 把 IP 广 播 地 址 翻译 成 以 太 网 广播 地 址 。 

如 果 目 的 地 址 不 是 广播 地 址 ， 则 ip_output 把 M_BCRAST 清 零 。 

如 果 M_BCAST 没 有 清 零 ， 则 对 一 个 作为 广播 到 达 的 请 求 分 组 的 应 答 将 可 能 作为 

一 个 广播 被 返回 。 我 们 将 在 第 11 章 中 看 到 ， ICMP 应 答 将 以 这 种 方式 作为 TCP RST 

分 组 ( 见 26.9 节 ) 在 请 求 分 组 内 构造 。 

2. 发 送 分 组 
240-252 ”如 果 分 组 对 所 选择 的 接口 足够 小 ，ip_len 和 ip_off 被 转换 成 网 络 字 节 序 ，IP 检 
验 和 与 jn_cksum( 见 8.7 节 ) 一 起 计算 ， 把 分 组 提交 给 所 选 接口 的 1£_output 函 数 。 

3. 分 片 分 组 
253-338 大 分 组 在 被 发 送 之 前 必须 分 片 。 这 里 我 们 省 略 这 段 代 码 ， 推 迟到 第 10 章 讨论 。 

4. ik 
339-346 4g —ÁRIBAHSUÉR—T 9B. Sede SIE, AnPmESrou. ip. 
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output 可 能 会 使 用 一 个 临时 的 route 结 构 (ijproute)。 如 果 和 需要 ，RTFREE 发 布 iproute 内 
的 路 由 入 口 ， 并 把 引用 计数 减 1。Bad 处 的 代码 在 返回 前 扔 掉 当 前 分 组 。 


引用 计数 是 一 个 存储 器 管理 技术 。 程 序 员 必须 对 一 个 数据 结构 的 外 部 引用 计 
数 ; 当 计 数 返回 为 0 时 ， 就 可 以 安全 地 把 存储 器 返回 给 空 存储 器 池 。 引 用 计数 要 求 程 
序 员 遵 守 一 些 规定 ， 在 恰当 的 时 机 增加 或 减 小 引用 计数 。 


8.7 ”Internet 检 验 和 : in_cksum 函 数 


有 两 个 操作 占据 了 处 理 分 组 的 主要 时 间 : 复制 数据 和 计算 检验 和 ([Kay 和 Pasquale 1993])。 
mbuf 数 据 结构 的 灵活 性 是 Net/3 中 减少 复制 操作 的 主要 方法 。 由 于 对 硬件 的 依赖 ， 所 以 检验 和 
的 有 效 计 算 相 对 较 难 。Net/3 中 有 几 种 in_cksum 的 实现 (图 8-26)。 


Sys/netinet/in cksum.c 
net3/sparc/sparc/in cksum.c 
net3/luna68k/luna68k/in cksum.c 
SyS/vax/vax/in cksum.c 
Sys/tahoe/tahoe/in, cksum.c 
sys/hp300/hp300/in, cksum.c 
$Sys/i1386/i1386/in cksum.c 














Intei 80386 
图 8-26 4kNeu3 mif JLA4- in cksumlk 


即使 是 可 移植 C 实 现 也 已 经 被 相当 好 地 优化 了 。RFC 1071 [Braden, BormanjfPartridge 
1988] 和 RFC 1141 [Mallory 和 Kullberg 1990] 讨 论 了 Internet 检 验 和 函数 的 设计 和 实现 。RFC 
1141 被 RFC 1624 [Rijsinghani 1994] 修正 。 从 REFC 1071: 

1) 把 被 检验 的 相 邻 字 节 成 对 配 成 16 bit 整 数 ， 就 形成 了 这 些 整数 的 二 进 制 反 码 的 和 。 

2) 为 生成 检验 和 ， 把 检验 和 字段 本 身 清 零 ， 把 16 bit 的 二 进 制 反 码 的 和 以 及 这 个 和 的 二 进 
制 反 码 放 到 检验 和 字段 。 

3) 为 检验 检验 和 ， 对 同一 组 字 节 计算 它们 的 二 进 制 反 码 的 和 。 如 果 结 果 为 全 1( 在 二 进 制 
反 码 运算 中 -0， 见 下 面 的 解释 )， 则 检验 成 功 。 

简 而 言 之 ， 当 对 用 二 进 制 反 码 表示 的 整数 进行 加 法 运算 时 ， 把 两 个 整数 相 加 后 再 加 上 进 
位 就 得 到 加 法 的 结果 。 在 二 进 制 反 码 运算 中 ， 只 要 把 每 一 位 求 补 就 得 到 一 个 数 的 反 。 所 以 在 
二 进 制 反 码 运算 中 ，0 有 两 种 表示 方法 : 全 0， 和 全 1。 有 关 二 进 制 反 码 的 运算 和 表示 的 详细 讨 
论 见 [Mano 1982]. 

检验 和 算法 在 发 送 分 组 之 前 计算 出 要 放 在 IP 首 部 检验 和 字段 的 值 。 为 了 计算 这 个 值 ， 先 
把 首部 的 检验 和 字段 设 为 0， 然 后 计算 整个 首部 (包括 选项 ) 的 二 进 制 反 码 的 和 。 把 首部 作为 一 
个 16 bit 整 数 数组 来 处 理 。 让 我 们 把 这 个 计算 结果 称 为 4。 因 为 检验 和 字段 被 明确 设 为 0， 所 以 
a 是 除了 检验 和 字段 外 所 有 IP 首 部 字段 的 和 。a 的 二 进 制 反 码 ， 用 -a 表示 ， 被 放 在 检验 和 字段 
中 ， 发 送 该 分 组 。 

如 果 在 传输 过 程 中 没有 比特 位 被 改变 ， 则 在 目的 地 计算 的 检验 和 应 该 等 于 (a+~a) 的 二 进 
制 反 码 。 在 二 进 制 反 码 运算 中 (a+-a) 的 和 是 -0( 全 1)， 而 它 的 二 进 制 反 码 应 该 等 于 0( 全 0)。 所 
以 在 目的 地 ， 一 个 没有 损坏 分 组 计算 出 来 的 检验 和 应 该 总 是 为 0。 这 就 是 我 们 在 图 8-12 中 看 到 
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的 。 下 面 的 C 代 码 (不 是 NeV3 的 内 容 ) 是 这 个 算法 的 一 种 原始 的 实现 : 


1 unsigned short 
2 cksum(struct ip *ip, int len) 


3í 
4 long sum = 0; /* assume 32 bit long, 16 bit short */ 
5 while (len > 1) { 
6 sum += *( (unsigned short *) ip)++; 
7 if (sum & 0x80000000) /* if high-order bit set, fold */ 
8 sum = (sum & OxFFFF) + (sum >> 16); 
9 len -= 2; 
10 ) 
11 if (len) /* take care of left over byte */ 
12 sum += (unsigned short) *(unsigned char *) ip; 
13 while (sum »» 16) 
14 sum = (sum & OxFFFF) + (sum »» 16); 
15 return ^sum; 
16 ) 


图 8-27 IP 检 验 和 计算 的 一 种 原始 的 实现 


1-16 ”这 里 唯一 提高 性 能 之 处 在 于 累计 sum 高 16 bit 的 进位 。 当 循环 结束 时 ， 累 计 的 进位 被 
加 在 低 16 bit 上 ， 直 到 没有 其 他 进位 发 生 。RFC 1071 称 此 为 延迟 进位 (deferred carries)。 在 没 
有 有 进位 加 法 指令 或 检测 进位 代价 很 大 的 机 器 上 ， 这 个 技术 非常 有 效 。 
现在 我 们 显示 Net/3 的 可 移植 C 版 本 。 它 使 用 了 延迟 进位 技术 ， 作 用 于 存储 在 一 个 mbuf 链 
中 的 分 组 。 
42-140 我 们 的 新 检验 和 实现 假定 所 有 被 检验 字 节 存储 在 一 个 连续 缓存 而 不 是 mbuf 中 。 这 个 
版 本 的 检验 和 计算 采用 相同 的 底层 算法 来 正确 地 处 理 mbuf: 用 32bit 整 数 的 延迟 进位 对 16 bit 字 
作 加 法 。 对 奇数 个 字 节 的 mbuf， 多 出 来 的 一 个 字 节 被 保存 起 来 ， 并 与 下 一 个 mbuf 的 第 一 个 字 
节 配 对 。 因 为 在 大 多 数 体系 结构 中 ， 对 16 bit 字 的 不 对 齐 访问 是 无 效 的 ， 甚 至 会 产生 严重 差错 ， 
所 以 不 对 齐 字 节 将 被 保存 ，in_cksum 继 续 加 上 下 一 个 对 齐 的 字 。 当 这 种 情况 发 生 时 ，in_- 
cksum 总 是 很 小 心地 交换 字 节 ， 保 证 位 于 奇数 和 偶数 位 置 的 字 节 被 放 在 单独 的 和 字 节 中 ， 以 
满足 检验 和 算法 的 要 求 。 
循环 展开 
93-115 ”函数 中 的 三 个 while 循 环 在 每 次 迭代 中 分 别 在 和 中 加 上 16 个 字 、4 个 字 和 1 个 字 。 展 
开 的 循环 减 小 了 循环 的 耗费 ， 在 某 些 体系 结构 中 可 能 比 一 个 直接 循环 要 快 得 多 。 但 代价 是 代 
码 长 度 和 复杂 性 增 大 。 


in, cksum.c 
42 4$define ADDCARRY(x) (x > 65535 ? x -= 65535 : x) 
43 €&define REDUCE (1l util.l = sum; sum = l1 util.s[0] + 1 util.s[1]; ADDCARRY(sum);) 


44 int 
45 in cksum(m, len) 
46 struct mbuf *m; 


47 int len; 

48 ( 

49 u short *w; 

50 int sum - 0; 


图 8-28 IP 检 验 和 计算 的 一 个 优化 的 可 移植 C 程 序 
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TCP/IP 详 解 4&2: X 


int mlen = 0; 
int byte swapped = 0; 


union ( 


char c(21; 
u short S; 

) s.utii; 

union ( 
u, short s(2]; 
long 1; 

) 1l util; 


for (; m && len; m - m-»m next) ( 
if (m-»m len == O0) 
continue; 
w = mtodím, u short *):; 
if (mlen -- -1) ( 
/* 
* The first byte of this mbuf is the continuation of a 
* word spanning between this mbuf and the last mbuf. 
* 
* s. util.cí0] is already saved when scanning previous mbuf. 
*/ 
s util.c[1] = *(char *) w; 
sum *- s util.s; 


w - (u short *) ((char *) w * 1); 
mlen = m-»m len - 1; 
len--; 

) else 


mlen - m-»m len; 
if (len « mlen) 
mlen - len; 


len -= mien; 
/* 
* Force to even boundary. 
*/ 
if ((1 & (int) w) && (mlen > 0)) ( 
REDUCE; 
sum <<= 8; 
S util.c[0] = *(u char *) w; 
w - (u short *) ((char *) w * 1); 
mlen--; 
byte, swapped = 1; 
J 
/* 


* Unroll the loop to make overhead from 

* branches &c small. 

*/ 

while ((mlen -= 32) >= 0) ( 

sum += w[0]; sum += w[1]; sum += w[2]; sum += w[3]; 
sum += w[4]; sum += w[5]; sum += w[6]; sum += w[7]; 
sum += w[8]; sum += w[9]; sum += w(10]; sum += w[11]; 
sum += w[12]; sum += w(13]; sum += w[14]; sum += wí151]; 


w += 16; 
} 
mlen += 32; 
while ((mlen -= 8) >= 0) ( 
sum += w[0]; sum += w(1]; sum += w(2]; sum += w[3]; 


w += 4; 


图 8-28 (£&) 
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108 } 

109 mlen += 8; 

110 if (mlen == 0 && byte_swapped == 0) 

111 continue; 

112 REDUCE; 

113 while ((mlen -= 2) >= 0) { 

114 sum += *W++; 

115 ) 

116 if (byte swapped) ( 

117 REDUCE; 

118 sum <<= B8; 

119 byte swapped - 0; 

120 if (mlen == -1) ( 

121 S util.c[1] = *(char *) w; 

122 t sum += S util.s; 

123 mlen - 0; 

124 ) else 

125 mlen = -1; 

126 ) else if (mlen == -1) 

127 s util.c[0] = *(char *) w; 

128 J 

129 if (len) 

130 printf("cksum: out of dataMn"); 

131 if (mlen == -1) { 

132 /* The last mbuf has odd # of bytes. Follow the standard (the odd 

133 byte may be shifted left by 8 bits or not as determined by 

134 endian-ness of the machine) */ 

135 s util.c[1] = 0; ` 

136 sum += s_util.s; 

137 } 

138 REDUCE; 

139 return (“sum & Oxffff); 

140 } . 

in cksum.c 

Rj8-28 ( 续 ) 

其 他 优化 


RFC 1071 提 到 两 个 在 Net/3 中 没有 出 现 的 优化 : 联合 的 有 检验 和 的 复制 操作 和 递增 的 检验 
和 更 新 。 对 了 首部 检验 和 来 说 ， 把 复制 和 检验 和 操作 结合 起 来 并 不 像 对 TCP 和 UDP 那么 重要 ， 
因为 后 者 覆盖 了 更 多 的 字 节 。 在 23.12 节 中 对 这 个 合并 的 操作 进行 了 讨论 。 [Partridge 和 Pink 
1993] 报 告 了 IP 首 部 检验 和 的 一 个 内 联 版 本 比 调用 更 一 般 的 in_cksum 函 数 要 快 得 多 ， 只 需 
6~8 个 汇编 指令 就 可 以 完成 (标准 的 20 字 节 IP 首 部 )。 

检验 和 算法 设计 允许 改变 分 组 ， 并 在 不 重新 检查 所 有 字 节 的 情况 下 更 新 检验 和 。REC 
1071 对 该 问题 进行 简明 的 讨论 。RFC 1141 和 1624 中 有 更 详细 的 讨论 。 该 技术 的 一 个 典型 应 用 
是 在 分 组 转发 的 过 程 中 。 通 常情 况 下 ， 当 分 组 没有 选项 时 ， 转 发 过 程 中 只 有 TTL 字 段 发 生变 
化 。 在 这 种 情况 下 ， 可 以 只 用 一 次 循环 进位 ， 重 新 计算 检验 和 。 

为 了 进一步 提高 效率 ， 递 增 的 检验 和 也 有 助 于 检测 到 被 有 差错 的 软件 破坏 的 首部 。 如 果 
递增 地 计算 检验 和 ， 则 下 一 个 系统 可 以 检测 到 被 破坏 的 首部 。 但 是 如 果 不 是 递增 计算 检验 和 ， 
那么 检验 和 中 就 包含 了 差错 的 字 节 ， 检 测 不 到 有 问题 的 首部 。UDP 和 TCP 使 用 的 检验 和 算法 
在 最 终 目 的 主机 检测 到 该 差错 。 我 们 将 在 第 23 和 25 章 看 到 UDP 和 TCP 检 验 和 包含 了 IP 首 部 的 
几 个 部 分 。 


190 TCP/IP #Æ #2: 实现 


使 用 硬件 有 进位 加 法 指令 一 次 性 计算 32 bit 检 验 和 的 检验 和 函数 ， 可 参见 ./sys/vax/ 
vax/in_cksum.c 文 件 中 VAX 实 现 的 in_cksum。 


8.8 setsockopt 和 getsockopt 系 统 调 用 


NetU3 提 供 setsockopt 和 getsockopt 两 个 系统 调用 来 访问 一 些 网 络 互 连 的 性 质 。 这 两 个 系统 
调用 支持 一 个 动态 接口 ， 进 程 可 用 该 动态 接口 来 访问 某 种 网 络 互 连 协议 的 一 些 性 质 ， 而 标准 
系统 调用 通常 不 支持 该 协议 。 这 两 个 调用 的 原型 是 : 

int setsockopt (int s, int level, int optname, void *optval, int optlen); 


int getsockopt(int s, int level, int optname, const void *optval, int optlen) ; 


大 多 数 插口 选项 只 影响 它们 在 其 上 发 布 的 插口 。 与 sysct1 参 数 相 比 , 后 者 影响 整个 系统 。 
与 多 播 相 关 的 插口 选项 是 一 个 明显 的 例外 ， 将 在 第 12 章 中 讨论 。 

setsockopt 和 getsockopt 设 置 和 获取 通信 栈 所 有 层 上 的 选项 。 Net/3 按 照 与 s 相 关 的 
协议 和 由 level 指 定 的 标识 符 处 理 选项 。 图 8-29 列 出 了 在 我 们 讨论 的 协议 中 leve! 可 能 取得 的 值 。 

在 第 17 章 中 ， 我 们 描述 了 setsockopt 和 getsockopt 的 实现 ， 但 在 其 他 适当 章节 中 讨 
论 有 关 选 项 的 实现 。 本 章 讨 论 访问 PP 性 质 的 选项 。 


IPPROTO TCP tcp ctloutput 30.6.5 
[8-31 - 


IPPROTO IP 
32.845 





















ip. ctloutput 













rip ctloutputAl 





IPPROTO IP ip. ctloutput 





图 8-29 sosetopt 和 sogetopt 参 数 


我 们 把 本 书 中 出 现 的 所 有 插口 选项 总 结 在 图 8-30 中 ,该 图 显示 了 IPPROTO_IP 级 的 选项 
选项 出 现在 第 1 列 ， Ea MAE BEA MAEAEA BLAA ASI, 第 3 列 显示 的 是 处 理 该 选项 的 


IP OPTIONS E i | in pcbopts n 设置 或 获取 发 出 的 数据 报 中 的 下 选项 
IP TOS i ip .ctioutput 设置 或 获取 发 出 的 数据 报 中 的 IP TOS 
IP TTL i ip.ctloutput 设置 或 获取 发 出 的 数据 报 中 的 IP TTL 


TP_RECVDSTADDR | i ip ctloutput 使 能 或 禁止 耻 目 的 地 址 (只 有 UDP) 的 排队 
IP RECVOPTS j ip_ctloutput 使 能 或 禁止 对 到 达 IP 选 项 作为 控制 信息 的 
排队 (只 对 UDP; 还 没有 实现 ) 
IP_RECVRETOPTS | i ip_ctloutput Mods 止 与 到 达 数 据 报 相关 的 逆 源 路 由 
只 对 UDP; 还 没有 实现 ) 





图 8-30 插口 选项 : SOCK_RAW、SOCK_DGRAM 和 SOCK_STREAMR 插 口 的 TPPROTO_IP 级 


图 8-31 显 示 了 用 于 处 理 大 部 分 IPPROTO_IP 选 项 的 ijp_ctloutput 隙 数 的 整个 结构 。 在 
32.8 节 中 我 们 给 出 与 SOCK_RAW 插 口 一 起 使 用 的 ITPPROTO_IP 选 项 。 


431 int 
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ip. oulput.c 


432 ip ctloutput(op, so, level, optname, mp) 


433 int 


op; 


434 struct socket *so; 





435 int level, optname; 
436 struct mbuf **mp; 
437 ( 
438 struct inpcb *inp = sotoinpcb(so); 
439 struct mbuf *m - *mp; 
440 int optval; 
441 int error - 0; 
442 if (level !- IPPROTO IP) ( 
443 error - EINVAL; 
444 if (op -- PRCO SETOPT && *mp) 
445 (void) m free(*mp); 
446 ) else 
447 switch (op) ( 
448 case PRCO_SETOPT : 
449 . Switch (optname) ( 
/* PRCO SETOPT processing (Figures 8.32 and 12.17) */ 
493 freeit: 
494 default: 
495 error = EINVAL; 
496 break; 
497 } 
498 if (m) 
499 (void) m free(m):; 
500 break; 
501 case PRCO GETOPT: 
502 switch (optname) ( 
/* PRCO SETOPT processing (Figurés 8.33 and 12.17) */ 
546 default: 
547 error - ENOPROTOOPT; 
548 break; 
549 ) 
550 break; 
551 H 
552 return (error); 
553 ) ` 
ip_output.c 
图 8-31 ip_ctloutputH e: ER 
431-447 ip_ctloutput 的 第 一 个 参数 op， 可 以 是 PRCO_SETOPT 或 者 PRCO_GETOPT。 第 二 


个 参数 so， 指 向 向 其 发 布 请 求 的 插口 。level 必 须 是 IPPROTO_IP。Optname 是 要 改变 或 要 检 
索 的 选项 ，mp 间 接地 指向 一 个 含有 与 该 选项 相关 数据 的 mbuf，m 被 初始 化 为 指向 由 *mp 引 用 


的 mbuf。 
448-500 


如 果 在 调用 setsockopt 时 指定 了 一 个 无 法 识别 的 选项 (因此 ， 在 switch 中 调用 


PRCO_SETOPT 语 句 )，ip_ctloutput 释 放 掉 所 有 调用 方 传 来 的 缓存 ， 并 返回 EINVAL。 
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501-553 getsockopt 传 来 的 无 法 识别 的 选项 导致 ip_ct1loutput 返 回 ENOPROTOOPT。 在 
这 种 情况 下 ， 调 用 方 释放 mbuf。 


8.8.1 


PRCO_SETOPT 的 


处 理 


对 PRCO_SETOPT 的 处 理 如 图 8-32 所 示 。 
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451 
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453 
454 
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457 
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484 


ip_output.c 
case IP_OPTIONS: 
return (ip_pcbopts (&inp->inp_options, m)); 
case IP TOS: 
case IP TTL: 
case IP RECVOPTS: 
Case IP RECVRETOPTS: 
case IP RECVDSTADDR: 
if (m-»m len !- sizeof(int)) 
error - EINVAL; 
else ( 
optval = *mtodí(m, int *); 
switch (optname) { 
case IP TOS: 
 inp-»inp ip.ip. tos = optval; 
break; 
case IP TTL: 
inp-»inp ip.ip. ttl = optval; 
break; 
$define OPTSET (bit) \ 
if (optval) \ 
inp-»inp flags j= bit; \ 
else \ 
inp-»inp flags &= “bit; 
case IP RECVOPTS: 
OPTSET(INP RECVOPTS); 
break; 
Case IP, RECVRETOPTS: 
OPTSET(INP RECVRETOPTS); 
break; 
case IP RECVDSTADDR: 
OPTSET (INP .RECVDSTADDR); 
break; 
} 
} 
break; 。 
ip. output.c 


图 8-32 ip_ctloutput 函 数 : 处 理 PRCO_SETOPT 


450-451 IP_OPTIONS 是 由 ip_pcbopts 处 理 的 (图 9-32)。 
452-484 IP_TOS 
RECVDSTADDR 选 项 都 需要 在 由 m 指 向 的 mbuf 中 有 一 个 整数 。 该 整数 储存 在 optval 中 ， 用 来 改 
变 与 播 口 有 关 的 ip_tos 和 ip_ttl 的 值 ， 或 者 用 来 设置 或 复位 与 播 口 相关 的 
INP_RECVOPTS、INP_RECVERTOPTS 和 INP_RECVDSTRADDR 标 志 位 。 如 果 optva1 是 非 零 
(或 0)， 则 宏 OPTSET 设 置 (或 复位 ) 指 定 的 比特 。 


图 8-30 中 显示 没有 实现 TP_RECVOPTS 和 IP_RECVERTOPTS。 在 第 23 章 中 ， 我 


、IP_TTL、IP_RECVOPTS、IP_RECVERTOPTS 以 及 IP_ 
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们 将 看 到 UDP 忽略 了 这 些 选 项 的 设置 。 
8.8.2 PRCO_GETOPT 的 处 理 


图 8-33 显 示 的 一 段 代码 完成 了 当 指 定 PRCO_GETOPT 了 时 对 IP 选 项 的 检索 。 








503 case IP, OPTIONS: ip-output.c 

504 *mp = m = m get (M WAIT, MT, SOOPTS); 

505 if (inp-»inp options) ( 

506 m-»m len = inp-»inp options-»m len; 

507 bcopy (mtod(inp-»inp options, caddr t), 

508 mtod(m, caddr t), (unsigned) m-»m len); 

509 ) else 

510 m-»m len - 0; 

511 break; 

512 case IP, TOS: 

513 case IP TTL: 

514 case IP, RECVOPTS: 

515 case IP,.RECVRETOPTS: 

516 case IP RECVDSTADDR: 

517 *mp = m = m get(M WAIT, MT SOOPTS); 

518 m-»m len = sizeof(int); 

519 switch (optname) ( 

520 case IP TOS: 

521 optval = inp-»inp ip.ip tos; 

522 break; 

523 case IP TTL: 

524 optval = inp-»inp ip.ip ttl; 

525 break; 

526 4&define OPTBIT(bit) (inp-»inp.flags & bit ? 1 : O0) 

527 case IP RECVOPTS: 

528 optval = OPTBIT(INP RECVOPTS); 

529 break; 

530 case IP RECVRETOPTS: 

531 optval - OPTBIT(INP, RECVRETOPTS) ; 

532 break; ' 

533 case IP RECVDSTADDR: 

534 optval = OPTBIT(INP, RECVDSTADDR); 

535 break; 

536 } 

537 *mtod(m, int *) = optval: 

538 break; . 
ip output.c 


图 8-33 ip ctloutputiA NÉE: PRCO_GETOPT 的 处 理 


503-538 对 IP_OPTIONS，ip_ctloutput 返 回 一 个 缓存 ， 该 缓存 中 包含 了 与 该 插口 相关 
的 选项 的 备份 。 对 其 他 选项 ，ip_ctloutput 返 回 ijp_tos 和 ip_tt1 的 值 ， 或 与 该 选项 相关 
的 标志 的 状态 。 返 回 的 值 放 在 由 m 指 向 的 mbuf 中 。 如 果 在 inp_f1lags 中 的 bit 是 打开 (或 关 
闭 ) 的 ， 则 宏 OPTBIT 将 返回 或 0)。 


8.9 ip_sysctløğ 
图 7-27 显 示 ， 在 调用 sysct1 中 ， 当 协议 和 协议 族 的 标识 符 是 0 时 ， 就 调用 ip_sysctli 乓 
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数 。 图 8-34 显 示 了 ip_sysct1 支 持 的 三 个 函数 。 


sysctlje $ Net/37F ti 


IPCTL, FORWARDING ipforwarding 系统 是 否 转发 IP 分 组 ? 


IPCTL SENDREDIRECTS ipsendredirects 系统 是 否 发 ICMP 重 定向 ? 
IPCTL, DEFTTL ip defttl ， 下 分 组 的 默认 TTEL 





图 8-34 sysct1 参 数 


8-3587 [ip sysctl. 








984 int ip input.c 
985 ip sysctl(name, namelen, oldp, oldlenp, newp, newlen) 

986 int *name; 

987 u int namelen; 

988 void *oldp; 

989 size t *oldlenp; 

990 void *newp; 

991 size t newlen; 

992 ( 

993 /* All sysctl names at this leyel are terminal. */ 

994 if (namelen !- 1) 

995 return (ENOTDIR); 

996 switch (name[0]) ( 

997 case IPCTL FORWARDING: 

998 return (sysctl int(oldp, oldlenp, newp, newlen, &ipforwarding)); 
999 case IPCTL SENDREDIRECTS: 

1000 return (sysctl int(oldp, oldlenp, newp, newlen, 
1001 &ipsendredirects)); 
1002 case IPCTL DEFTTL: 
1003 return (sysctl int(oldp, oldlenp, newp, newlen, &ip deftt1)); 
1004 default: 
1005 return (EOPNOTSUPP); 

1006 } 

1007 /* NOTREACHED */ 

1008 ) 2. 

ip input.c 


图 8-35 ip sysctlEEUK 


因为 jp_sysct1l 并 不 把 sysct1i 请 求 转发 给 其 他 函数 ， 所 以 在 name 中 只 能 有 一 个 成 员 。 
否则 返回 ENOTDIR。 

Switch 语句 选择 恰当 的 调用 syst1_int， 它 访问 或 修改 ipforwarading、 
ipsendqredirects 或 ip_deftt1I。 对 无 法 识别 的 选项 返回 EOPNOTSUPP。 


8.10 小 结 


IP 是 一 个 最 佳 的 数据 报 服务 ， 它 为 所 有 其 他 Internet 协 议 提 供 交 付 机 制 - 标准 IP 首 部 长 度 
为 20 字 节 ， 但 可 跟 最 多 40 字 节 的 选项 。IP 可 以 把 大 的 数据 报 分 片 发 送 ， 并 在 目的 地 重 装 分 片 。 
对 选项 处 理 的 讨论 放 在 第 9 章 和 第 10 章 讨论 分 片 和 重 装 。 

ipintr 保 证 IP 首 部 到 达 时 未 经 破坏 ， 通 过 把 目的 地 址 与 系统 接口 地 址 及 其 他 儿 个 广播 地 
址 比较 来 确定 它们 是 否 到 达 最 终 目 的 地 。ipintzr 把 到 达 最 终 目 的 地 的 数据 报 传 给 分 组 内 指定 - 
的 运输 层 协 议 。 如 果 系 统 被 配置 成 路 由 器 ， 就 把 还 没有 到 达 最 终 目 的 地 的 分 组 发 给 
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ip_forward 转 发 到 最 终 目 的 地 。 分 组 有 一 个 受 限 的 生命 期 。 如 果 TTL 字 上段 变 成 0， 则 
ip forward 就 丢掉 该 分组。 l 

许多 Internet 协 议 都 使 用 Internet 检 验 和 图 数 ，Net3 用 in_cksum 实 现 。IP 检 验 和 只 覆盖 首 
部 (和 选项 )， 不 覆盖 数据 ， 数 据 必 须 由 传输 协议 级 的 检验 和 保护 。 作 为 下 中 最 耗 时 的 操作 ， 检 
验 和 函数 通常 要 对 不 同 的 平台 进行 优化 。 


习题 
8.1 
8.2 


8.3 


8.4 
8.5 


8.6 


8.7 
8.8 
8.9 


当 没 有 为 任何 接口 分 配 卫 地 址 时 ，IP 是 否 该 接收 广播 分 组 ? 

修改 ip_forward 和 ip_output， 当 转发 一 个 没有 选项 的 分 组 时 ， 对 IP 检 验 和 进行 
递增 的 更 新 。 

当 拒 绝 转 发 分 组 时 ， 为 什么 需要 检测 链 路 级 广播 ( 茶 缓存 中 的 M_BCAST 标 志 ) 和 IP 级 
广播 (in_canforward)? 在 何 种 情况 下 ， 把 一 个 具有 到 单 播 目 的 地 的 分 组 作为 一 个 
链 路 层 广 播 接 收 ? 

当 一 个 IP 分 组 到 达 时 有 检验 和 差错 ， 为 什么 不 向 发 送 方 返回 一 个 差错 信息 ? 

假定 一 个 多 接口 主机 上 的 某 个 进程 为 它 发 出 的 分 组 选择 了 一 个 明确 的 源 地 址 。 而 且 ， 
假定 是 通过 一 个 接口 而 不 是 作为 分 组 源 地 址 所 选择 的 地 址 到 达 的 。 当 第 一 跳 路 由 器 
发 现 分 组 应 该 到 另 一 个 路 由 器 时 ， 会 发 生 什么 情况 ?会 向 主机 发 送 重 定向 报 文 吗 ? 
一 个 新 的 主机 被 连 到 一 个 已 划分 子 网 的 网 络 中 ， 并 被 配置 成 完成 路 由 选择 的 功能 
(ipforwarding 等 于 1)， 但 它 的 网 络 接口 没有 分 配子 网 掩 码 。 当 该 主机 接收 一 个 子 
网 广播 分 组 时 会 出 现 什么 情况 ? | 

图 8-17 中 ， 在 检测 ip_tt1i 后 (与 之 前 相 比 )， 为 什么 需要 把 它 碱 1? 

如 果 两 个 路 由 器 都 认为 对 方 是 分 组 的 最 佳 下 一 跳 目 的 地 ， 将 发 生 什么 情况 ? 

图 8-14 中 ， 对 一 个 到 达 SLIP 接 口 的 分 组 ， 不 检测 哪些 地 址 ? 有 没有 其 他 在 图 8-14 中 
没有 列 出 的 地 址 被 检测 ? 


810 ip_forward 在 调用 icmp_error 之 前 ， 把 分 片 的 1d 从 主机 字 节 序 转换 成 网 络 字 


节 序 。 为 什么 它 不 对 分 片 的 偏 移 进行 转换 ? 


第 9 章 IP 选 项 处 理 


9.1 引言 


第 8 章 中 提 到 ，IP 输 入 函数 (ipintr) 将 在 验证 分 组 格式 (检验 和 ， 长 度 等 ) 之 后 ， 确 定 分 组 
是 否 到 达 目 的 地 之 前 ， 对 选项 进行 处 理 。 这 表明 ， 分 组 所 遇 到 的 每 个 路 由 器 以 及 最 终 的 目的 
主机 都 要 对 分 组 的 选项 进行 处 理 。 

RFC 791 和 1122 指 定 了 IP 选 项 和 处 理 规则 。 本 章 将 讨论 大 多 数 IP 选 项 的 格式 和 处 理 。 我 们 
也 将 显示 运输 协议 如 何 指定 IP 数 据 报 内 的 IP 选 项 。 

IP 分 组 内 可 以 包含 某 些 在 分 组 被 转发 或 被 接收 之 前 处 理 的 可 选 字段 。IP 实 现 可 以 用 任意 
顺序 处 理 选 项 ;Net/3 按 照 选 项 在 分 组 中 出 现 的 顺序 处 理 选 项 。 图 9-1 显 示 ， 标 准 IP 首 部 之 后 最 
多 可 跟 40 字 节 的 选项 。 


展 一 一 一 一 一 一 一 一 ip hlx4f4 一 -一 一 一 


选项 ' 
(0-407F 15) 


上 一 一 一 一 一 一 一 一 一 最 大 60 字 他。 一 一 一 一 一 一 一 一 一 


图 9-! 一 个 IP 首 部 可 以 有 0~40 字 节 的 IP 选 项 





9.2 代码 介绍 


山 个 首部 描述 了 IP 选 项 的 数据 结构 。 选 项 处 理 的 代码 出 现在 两 个 C 文 件 中 。 图 9-2 列 出 了 
相关 的 文件 。 


netinet/ip.h ip_timestamp 结 构 


netinet/ip var.h ipoption 结 构 
netinet/ip input.c 选项 处 理 
netinet/ip output.c ip insertoptionsHHÁ 4 


图 9-2 本 章 讨论 的 文件 





9.2.1 全 局 变量 
图 9-3 描 述 了 两 个 全 局 变量 支持 源 路 由 的 逆 (reversal)。 


e s| smm | 


ip_nhops int 
ip.srcrt | struct ip srcrt 













以 前 的 源 路 | 以 前 的 源 路 由 跳 计数 | 
以 前 的 源 路 由 


图 9-3 本 章 引 入 的 全 局 变量 


£93 IPs A AE 197 


9.2.2 统计 量 

选项 处 理 代码 更 新 的 唯一 的 统计 量 是 ipstat 结 构 中 的 ijps_badoptions， 如 图 8-4 所 示 。 
9.9 选项 格式 

IP 项 字段 可 能 包含 0 个 或 多 个 单独 选项 。 选 项 有 两 种 类 型 ， 单 字 节 和 多 字 节 ， 如 图 9-4 中 


| 一 一 一 ien 一 一 一 一 


P 7 位 移 字段 没有 出 现在 每 个 多 
~、、 字 节 选项 中 。 


i 2 bit 5 bit 
图 9-4 单字 节 和 多 字 节 IP 选 项 的 结构 


所 有 选项 都 以 1 字 节 类 型 (ype) 字 段 开始 。 在 多 字 市 选项 中 ， 类 型 字段 后 面 紧 接着 一 个 长 
度 (len) 字 段 、 其 他 的 字 节 是 数据 (data)。 许多 选项 数据 字段 的 第 一 个 字 节 是 1 字 节 的 位 移 
(offsen) 字 段 ， 指 向 数据 字段 内 的 某 个 字 节 。 长 度 字 节 的 计算 覆盖 了 类 型 、 长 度 和 数据 字段 。 
类 型 被 继续 分 成 三 个 子 字 段 : 1 bit 备 份 (copied) 标 志 、2 bit 类 (class) 字 段 和 5 bit 数 字 
(number) 字 段 。 图 9-5 列 出 了 目前 定义 的 了 选 项 。 前 两 个 选项 是 单字 节选 项 ; 其 他 的 是 多 字 
节选 项 。 


一 


[一 
| *o [um um 


IPOPT EOL 0-0-0 0 0-00-00000 | : |&xemaweob | 
IPOPT NOP 0-0-1 1 0-00-00001 


0-00-00111 ans 


0-10-00100 
IPOPT SECURITY | |-0- 1-00-00010 PA 
IPOPT LSRR -0- 1-00-00011 变 宽松 源 路 由 和 记录 路 由 (LSRR) - 


1-00-00101 扩展 的 安全 
IPOPT SATID -0- 1-00-01000 4 流标 识 符 
IPOPT SSRR - 1-00-01001 变 严格 源 路 由 和 记录 路 由 (SSRR) 


图 9-5 RFC 791 定 义 的 IP 选 项 
第 1 列 显示 了 Net/3 的 选项 常量 ， 第 2 列 和 第 3 列 是 该 类 型 的 十 进 
制 和 二 进 制 值 ， 第 4 列 是 选项 的 长 度 。Net/3 列 显示 的 是 在 Net/3 中 由 
ip_dooptions 实 现 的 选项 。IP 必 须 自动 忽略 所 有 它 不 识别 的 选 








项 。 我 们 不 描述 Net/3 没 有 实现 的 选项 : 安全 和 流 ID。 流 ID 选 项 是 查 错 和 措施 

过 时 的 ， 安 全 选项 主要 只 由 美国 军 方 使 用 。RFC 791 中 有 更 多 的 讨 

ie. l 图 9-6 IP 选 项 内 的 
当 Net/3 对 一 个 有 选项 的 分 组 进行 分 片 时 (10.4 节 )， 它 将 检查 class 字 段 


copied 标 志 位 。 该 标志 位 指出 是 否 把 所 有 选项 都 备份 到 每 个 分 片 的 JP 首部。class 字 段 把 相关 的 
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选项 按 如 图 9-6 所 示 进 行 分 组 。 图 9-3 中 ， 除 时 改选 项 具有 class 为 2 外 ， 所 有 选项 都 是 class 为 0。 
9.4 ip_dooptions M% 


在 图 8-13 中 ， 我 们 看 到 ipintr 在 检测 分 组 的 目的 地 址 之 前 调用 ip_dooptions。 
ip_dooptions 被 传 给 一 个 指针 m， 访 指针 指向 某 个 分 组 ，ip_dooptions 处 理 分 组 中 它 所 
知道 的 选项 。 如 果 ip_dooptions 转 发 该 分 组 ， 如 在 处 理 LSRR 和 SSRR 选 项 时 ， 或 由 于 某 个 
差错 而 丢掉 该 分 组 时 ， 它 返回 1。 如 果 它 不 转发 分 组 ，ip_dooptions 返 回 0， 由 ipintr 继 
续 处 理 该 分 组 。 

ip_dooptions 是 一 个 长 函数 ， 所 以 我 们 分 步 地 显示 。 第 一 部 分 初始 化 一 个 for 循 环 ， 
处 理 首部 中 的 各 选项 。 

当 处 理 每 个 选项 时 ，cp 指 向 选项 的 第 一 个 字 季 。 图 9-7 显 示 ， 当 可 用 时 ， 如 何 从 cp 的 党 
量 位 移 访 问 rtype、length 和 offse! 字 段 。 . 

cp[IPOPT_OLEN] 











cp[IPOPT_OPTVAL] mm cp[IPOPT OFFSET] 
| 
type offset data | 
-一 len £t ————————— — 39. 


| 


cp 
图 9-7 用 常量 位 移 访问 IP 选 项 字段 

RFC 把 位 移 (offseD) 字 段 描述 作 指 针 (pointer)， 指 针 比 位 移 的 描述 性 略 强 一 些 。offset 的 值 是 
某 个 字 节 在 该 选项 内 的 序号 (从 type 开 始 ， 序 号 为 1))， 不 是 从 type 开 始 的 、 且 以 零 开 始 的 计数 。 
位 移 的 最 小 值 是 4(IPOPT_MINOFF), 它 指向 的 是 多 字 节 选项 中 数据 字段 的 第 一 个 字 节 。 

图 9-8 显 示 了 ip_dqooptions 国 数 的 整体 结构 。 
555-566 ip_dooptions 把 ICMP 差 错 类 型 type 初 始 化 为 TCMP_PARAMPROB， 对 任何 没 
有 特定 差错 类 型 的 差错 ， 这 是 一 个 一 般 值 。 对 于 ICMP_PARAMPROB，code 指 的 是 出 错字 节 
在 分 组 内 的 位 移 。 这 是 默认 的 ICMP 差 错 报 文 。 某 些 选项 将 改变 这 些 值 。 

ip 指向 一 个 20 字 节 大 小 的 ip 结构 ， 所 以 ip+1I 指 向 的 是 跟 在 了 P 首 部 后 面 的 下 一 个 

ip 结 构 。 因 为 jp_dooptions 需 要 IP 首 部 后 面 字 节 的 地 址 ， 所 以 就 把 结果 指针 转换 

成 为 指向 一 个 无 符号 字 节 (u_char) 的 指针 。 因 此 ，cp 指 向 标准 IP 首 部 以 外 的 第 一 个 

字 节 ， 就 是 了 了 选项 的 第 一 个 字 节 。 

1. EOL 和 NOP 过 程 l . 
567-582 for 循环 按照 每 个 选项 在 分 组 中 出 现 的 顺序 分 别 对 它们 进行 处 理 。EOL 选 项 以 及 
一 个 无 效 的 选项 长 度 (也 即 选项 长 度 表 明 选 项 数据 超过 了 IP 首 部 ) 都 将 终止 该 循环 。 当 出 现 NOP 
选项 时 ， 忽 略 它 。switch 语 句 的 default 情 况 隐 含 要 求 系统 忽略 未 知 的 选项 。 

下 面 的 内 容 描述 了 switch 语 句 处 理 的 每 个 选项 。 如 果 ip_dooptions 在 处 理 分 组 选项 
时 没有 出 错 ， 就 把 控制 交 给 swi tch 下 面 的 代码 。 

2. 源 路 由 转发 
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719-724 如果 分 组 需要 被 转发 ，SSRR 或 LSRR 选 项 处 理 代 码 就 把 forward 置 位 。 分 组 被 传 
给 ip_forward， 并 且 第 2 个 参数 为 1， 表 明 分 组 是 按 源 路 由 选择 的 。 











553 int tp input.c 
554 ip dooptions (m) 
555 struct mbuf *m; 
556 ( 
557 struct ip *ip - mtod(m, struct ip *); 
558 u char *cp; 
559 struct ip timestamp *ipt; ^ 
560 struct in ifaddr *ia; . 
561 int opt, optlen, cnt, off, code, type - ICMP PARAMPROB, forward - 0; 
562 struct in addr *sin, dst; 
563 n time ntime; 
564 dst - ip-»ip dst; 
565 Cp = (u_char *) (ip + 1); 
566 cnt - (ip-»ip hl «« 2) - sizeof(struct ip); 
567 for (; cnt > 0; cnt -= optlen, cp += optlen) ( 
568 Opt - Cp[IPOPT OPTVAL]; 
569 if (opt == IPOPT EOL) 
570 break; 
571 if (opt -- IPOPT NOP) 
572 optlen - 1; 
573 else ( 
574 optlen = cp(IPOPT OLEN]; 
575 if (optlen <= 0 |} optlen > cnt) ( 
576 code - &cp[IPOPT OLEN] - (u char *) ip; 
577 goto bad; 
578 ) 
579 ) 
580 switch (opt) ( 
581 default: 
582 break; 
/* option processing */ 
719 } 
720. if (forward) { 
721 ip forward(m, 1); 
722 return (1); 
723 ) 
724 return (0); 
725 bad: 
726 ip-»ip len -= ip-»ip hl << 2; | /* XXX icmp error adds in hdr length */ 
727 icmp error(m, type, code, 0, 0); 
728 ipstat.ips, badoptions-«-*; 
729 return (1); 
730 ) "P 
ip input.c 
图 9-8 ip dooptionsEAE 
我 们 在 8.5 节 中 讲 到 ， 并 不 为 源 路 由 选择 分 组 生成 ICMP 重 定向 这 就 是 为 什么 


在 传 给 ip_forward 时 设置 第 ?个 参数 的 原因 。 
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如 果 转 发 了 分 组 ， 则 ip_dooptions 返 回 !。 如 果 分 组 中 没有 源 路 由 ， 则 返回 0 给 
ipintr， 表 明 需 要 对 该 数据 报 进一步 处 理 。 注 意 ， 只 有 当 系 统 被 配置 成 路 由 器 时 
(ipforwarding 等 于 1)， 才 发 生源 路 由 转发 。 

从 某 种 程度 上 说 ， 这 是 一 个 有 些 矛 盾 的 策略 ， 但 却 是 RFC 1122 的 书面 要 求 。 

RFC 1127 [Braden 1989c] 把 它 作为 一 个 公开 问题 加 以 阐述 。 

3. 差错 处 理 
725-730 ”如 果 在 switch 语 句 里 出 现 了 错误 ，ip_dooptions 就 跳 到 bad。 从 分 组 长 度 中 
把 IP 首 部 长 度 减 去 ， 因 为 cmp_error 假 设 首 部 长 度 不 包含 在 分 组 长 度 里 。icmp_error 发 
出 适当 的 差错 报 文 ，ip_dooptions 返 回 1， 避 免 ijpintr 处 理 被 丢弃 的 分 组 。 

下 一 节 描 述 NetW3 处 理 的 所 有 选项 。 


9.5 记录 路 由 选项 


记录 路 由 选项 使 得 分 组 在 穿 过 互联 网 时 所 经 过 的 路 由 被 记录 在 分 组 内 部 。 项 的 大 小 是 源 
主机 在 构造 时 确定 的 ， 必 须 足 够 保存 所 有 预期 的 地 址 。 我 们 记得 在 IP 分 组 的 首部 ， 选 项 最 多 
只 能 有 40 字 节 。 记 录 路 由 选项 可 以 有 3 个 字 节 的 开销 ， 后 面 紧 跟 地 址 的 列表 (每 个 地 址 4 字 节 )。 
如 果 该 选项 是 唯一 的 选项 ， 则 最 多 可 以 有 9 个 (3+4x 9=39) 地 址 出 现 。 一 旦 分 配给 该 选项 的 

空间 被 填 满 ， 就 按 通常 的 情况 对 分 组 进行 转发 ， 中 间 的 系统 就 不 再 记录 地 址 。 

图 9-9 说 明了 一 个 记录 路 由 选项 的 格式 ， 图 9-10 是 其 源 程序 。 


( 3 
len joffset address 1 address 2 | address n 
ji 4 (offset = 4) (offset = 8) B $ 9 (offset = 4n) E 
1 1 


cto H 


4 字 ee 4 ut 入 4x 





| type 








图 9-9 记录 路 由 选项 ， 其 中 "必须 <9 





ip input.c 
647 case IPOPT RR: 
648 if ((off - cp[IPOPT OFFSET]) « IPOPT MINOFF) ( 
649 code = &cp[IPOPT OFFSET] - (u_char *) ip; 
650 goto bad; 
651 } 
652 /* 
653 * If no space remains, ignore. 
654 */ 
655 off--; /* 0 origin */ 
656 if (off » optlen - sizeof(struct in addr)) 
657 break; 
658 bcopy((caddr t) (&ip-»ip dst), (caddr t) & ipaddr.sin addr, 
659 sizeof(ipaddr.sin addr)); 
660 /* 
661 * locate outgoing interface; if we're the destination, 
662 * use the incoming interface (should be same). 
663 */ 
664 if ((ia = (INA) ifa ifwithaddr((SA) & ipaddr)) -- 0 && 
665 (ia = ip rtaddr(ipaddr.sin addr)) -- 0) ( 
666 type - ICMP UNREACH; 
667 code - ICMP UNREACH, HOST; 


图 9-10 函数 ijp_dooptions: 记录 路 由 选项 的 处 理 
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668 goto bad; 

669 } 

670 bcopy((caddr t) & (IA SIN(ia)-»sin,addr), . 
671 (caddr t) (cp + off), sizeof(struct in addr)); 
672 Cp[IPOPT OFFSET] += sizeof(struct in addr); 

673 break; 


ip input.c 
图 9-10 (£x) 


647-657 ”如果 位 移 选 项 太 小 ， 则 ip_dooptions 就 发 送 一 个 ICMP 参 数 问题 差错 。 如 果 变 
量 code 被 设置 成 分 组 内 无 效 选项 的 字 节 位 移 量 ， 并 且 bad 标 号 (图 9-8) 语 句 的 执行 产生 错误 ， 
则 发 出 的 ICMP 参 数 问题 差错 报 文中 就 具有 该 code 值 。 如 果 选 项 中 没有 附加 地 址 的 空间 ， 则 
忽略 该 选项 ， 并 继续 处 理 下 一 个 选项 。 
记录 地 址 
658-673 如 果 ip_dst 是 某 个 系统 地 址 (分 组 已 到 达 目 的 地 )， 则 把 接收 接 只 的 地 址 记录 在 选项 
H; 否则 把 ip_rtadar 提 供 的 外 出 接口 的 地 址 记录 下 来 。 把 位 移 更 新 为 选项 中 下 一 个 可 用 地 
址 位 置 。 如 果 ip_rtaddr 无 法 找到 到 目的 地 的 路 由 ， 就 发 送 一 个 ICMP 主 机 不 可 达 差 错 报 文 。 
卷 1 的 7.3 节 举 了 一 些 记 录 路 由 选项 的 例子 。 


ip_rtaddr Á% 


函数 ip_rtaddr 查 询 路 由 缓存 ， 必 要 时 查询 完整 的 路 由 表 、 来 找到 到 给 定 IP 地 址 的 路 由 。 
它 返 回 一 个 指向 jn_ifadar 结 构 的 指针 ， 该 指针 与 该 路 由 的 外 出 接口 有 关 。 图 9-11 显 示 了 该 
EEG 


735 struct in ifaddr * ip_input.c 

736 ip rtaddr(dst) 

737 struct in_addr dst; 

738 ( 

739 struct sockaddr in *sin; 

740 sin - (struct sockaddr in *) &ipforward rt.ro dst; 

741 if (ipforward rt.ro rt -- 0 || dst.s addr != sin-»sin addr.s addr) ( 

742 if (ipforward rt.ro rt) ( 

743 RTFREE(ipforward rt.ro rt); 

744 ipforward rt.ro,rt = 0; 

745 ) 

746 Sin-»sin family = AF INET; 

747 sin-»sin len = sizeof(*sin); 

748 sin-»sin addr = dst; 

749 rtalloc(&ipforward rt); 

750 J 

751 if (ipforward rt.ro rt z- 0) 

752 return ((struct in ifaddr *) 0); 

753 return ((struct in ifaddr *) ipforward rt.ro,rt-»rt, ifa); 

754 } " 
ip input.c 


图 9-11 函数 ip_rtaddqr: 寻找 外 出 的 接口 


1. K& & IPAE X 5E AE 
735-741 ， 如果 路 由 缓存 为 空 ， 或 者 如 果 ip_rtadaqaz 的 唯一 参数 dest 与 路 由 缓存 中 的 目的 
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地 不 匹配 ， 则 必须 查询 路 由 表 选 择 一 个 外 出 的 接口 。 

2. 确定 路 由 
742-750 旧 的 路 由 (如 果 有 的 话 ) 被 丢弃 ， 并 把 新 的 路 由 储存 在 *sin( 这 是 转发 缓存 的 
ro_dst 成 员 )。rtalloc 搜 索 路 由 表 ， 寻 找到 目的 地 的 路 由 。 

3. 返回 路 由 信息 
751-754 如果 没 有 路 由 可 用 ， 就 返回 一 个 空 指针 ; 否则 ， 就 返回 一 个 指针 ， 指 向 与 所 选 路 
由 相关 联 的 接口 地 址 结构 。 


9.6 源 站 和 记录 路 由 选项 


通常 是 在 中 间 路 由 器 所 选择 的 路 径 上 转发 分 组 。 源 站 和 记录 路 由 选项 允许 源 站 明确 指定 

条 到 目的 地 的 路 由 ， 黎 盖 掉 中 间 路 由 器 的 路 由 选择 决定 。 而 且 ， 在 分 组 到 达 目 的 地 的 过 程 . 
中 ， 把 该 路 由 记录 下 来 。 | 

严格 路 由 包含 了 源 站 和 目的 站 之 间 的 每 个 中 间 路 由 器 的 地 址 ; EL I Fen i 
路 由 器 的 地 址 。 在 宽松 路 由 中 ， 路 由 器 可 以 自由 选择 两 个 系统 之 间 的 任何 路 径 ; 而 在 严格 路 
由 中 ， 则 不 允许 路 由 器 这 样 做 。 我 们 用 图 9-12 说 明 源 路 由 处 理 . 

4、B 和 C 是 路 由 器 ， 而 HS 和 HD 是 源 和 目的 主机 。 因 为 每 个 接口 都 有 自己 的 了 P 地 址 ， 所 以 
我 们 看 到 路 由 器 A 有 三 个 地 址 : Al，A2 和 A;。 同 样 ， 路 由 器 B 和 C 也 有 多 个 地 址 。 图 9-13 显 示 
了 源 站 和 记录 路 由 选项 的 格式 。 | 


A3 








图 9-12 源 路 由 举例 
ddress address 2 add 
i a | Po] dem» 
4'EAi 4 字 节 Ag 


图 9-13 严格 和 宽松 源 路 由 选项 


IP 首 部 的 源 和 目的 地 址 以 及 在 选项 中 列 出 的 位 移 和 地 址 表 ， 指 定 了 路 由 以 及 分 组 目前 在 
该 路 由 中 所 处 的 位 置 。 图 9-14 显 示 ， 当 分 组 按照 这 个 宽松 源 路 由 从 HS 经 A、B、C 到 HD 时 ， 信 
息 是 如 何 改变 的 。 每 行 代表 当 分 组 被 第 1 列 显示 的 系统 发 送 时 的 状态 。 最 后 一 行 显示 分 组 被 
HD 接收 。 图 9-15 显 示 了 相关 的 代码 。 

符号 “*” 表 示 位 移 与 路 由 中 地 址 的 相对 位 置 。 注 意 ， 每 个 系统 都 把 出 接口 的 地 址 放 到 选 
项 去 。 特 别 地 ， 原 来 的 路 由 指定 A; 为 第 一 跳 目 的 地 ， 但 是 外 出 接口 A, 被 记录 在 路 由 中 。 通 过 
这 种 方法 ， 分 组 所 采用 的 路 由 被 记录 在 选项 中 。 被 记录 的 路 由 将 被 目的 地 系统 倒转 过 来 放 到 
所 有 应 答 分 组 上 ， 让 它们 涪 着 原始 的 路 由 的 逆 方 向 发 送 。 

除了 UDP，Net/3 在 应 答 时 总 是 把 收 到 的 源 路 由 北 转 过 来 。 
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CUTE. 






图 9-14 当 分 组 通过 该 路 由 时 ， 源 路 由 选项 被 修改 。 





583 7* ip input.c 
584 * Source routing with record. 

585 * Find interface with current destination address. 
586 * If none on this machine then drop if strictly routed, 
587 * or do nothing if loosely routed. 

588 * Record interface address and bring up next address 
589 * component. If strictly routed make sure next 
590 * address is on directly accessible net. 

591 */ 

592 case IPOPT LSRR: 

593 case IPOPT SSRR: 

594 if ((off - cp[IPOPT OFFSET]) « IPOPT MINOFF) ( 

595 code - &cp[IPOPT OFFSET] - (u char *) ip; 

596 goto bad; 

597 } 

598 ipaddr.sin addr = ip->ip_dst; 

599 ia = (struct in ifaddr *) 

600 ifa ifwithaddr((struct sockaddr *) &ipaddr); 
601 if (ia == 0) ( 

602 if (opt -- IPOPT SSRR) ( 

603 type - ICMP UNREACH; 

604 code = ICMP UNREACH, SRCFAIL; 

605 goto bad; 

606 } 

607 /* 

608 * Loose routing, and not at next destination 
609 * yet; nothing to do except forward. 

610 */ 

611 break; 

612 0) | 

613 off--; /* 0 origin */ 

614 if (off » optlen - sizeof(struct in addr)) ( 

615 /* 

616 * End of source route. Should be for us. 

617 */ 

618 save rte(cp, ip-»ip src); 

619 . break; 

620 } 

621 /* 

622 * locate outgoing interface 

623 */ 

624 bcopy((caddr t) (cp + off), (caddr t) & ipaddr.sin addr, 
625 sizeof(ipaddr.sin addr)); 

626 if (opt -- IPOPT SSRR) ( 


627 *define INA struct in, ifaddr * 
628 #define SA struct sockaddr * 
629 if ((ia - (INA) ifa ifwithdstaddr((SA) & ipaddr)) -- 0) 


图 9-15 pip dooptions: LSRR 和 SSRR 选 项 处 理 
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630 <- ia = (INA) ifa ifwithnet((SA) & ipaddr); 

631 ) eise 

632 ia = ip,rtaddr(ipaddr.sin addr); 

633 if (ia == 0) ( 

634 type - ICMP UNREACH; 

635 code - ICMP UNREACH, SRCFAIL; 

636 goto bad; 

637 } 

638 ip->ip_dst = ipaddr.sin addr; 

639 bcopy((caddr t) & (IA SIN(ia)-»sin addr), 

640 (caddr t) (cp + off), sizeof(struct in addr)); 

641 Cp[IPOPT OTFSET] += sizeof(struct in_addr); 

642 /* ] 

643 * Let ip intr's mcast routing check handle mcast pkts 

644 */ 

645 forward = !IN MULTICAST (ntohl(ip-»ip dst.s addr)); 

646 break; 2. 

ip input.c 

图 9-15 (£&) 


583-612 如 果 选 项 位 移 小 于 4 (IPOPT_MINOFF)， 则 Net/3 发 送 一 个 ICMP 参 数 问 题 差错 ， 并 
带 上 相应 的 code 值 。 如 果 分 组 的 目的 地 址 与 本 地 地 址 没有 一 个 匹配 。 且 选项 是 严格 源 路 由 
(IPOPT_SSRR)， 则 发 送 一 个 源 路 由 失败 差错 。 如 果 本 地 地 址 不 在 路 由 中 ， 则 .上 一 个 系统 把 
分 组 发 送 到 错误 的 主机 上 了 。 对 宽松 路 由 (TPOPT_LSRR) 来 说 ， 这 不 是 错误 ， 仅 意味 着 IP 必 
须 把 分 组 转发 到 目的 地 。 l 

1. 源 路 由 的 结 
613-620 ” 减 小 off， 把 它 转换 成 从 选项 开始 的 字 节 位 移 。 如 果 IP 首 部 的 ijp_dst 是 菜 个 本 地 
地 址 ， 并 且 off 所 指向 的 超过 了 源 路 由 的 末尾 ， 源 路 由 中 没有 地 址 了 ， 则 分 组 已 经 到 达 了 目的 
地 。save_rte 复 制 在 静态 结构 ip_srcrt 中 的 路 由 ， 并 保存 在 全 局 ip_nhops( 图 9-18) 里 路 
由 中 的 地 址 个 数 。 

ip_srcrt 被 定义 成 为 一 个 外 部 静态 结构 ， 因 为 它 只 能 被 在 ip_input.c 中 定 

3 85 EE SD. 

2, 为 下 一 跳 更 新 分 组 
621-637 ”如果 ip_dst 是 一 个 本 地 地 址 ， 并 且 offset 指 向 选项 内 的 一 个 地 址 ， 则 该 系统 是 
源 路 由 中 指定 的 一 个 中 间 系 统 ， 分 组 也 没有 到 达 目 的 地 。 在 严格 路 由 中 ， 下 一 个 系统 必须 位 
于 某 个 直接 相连 的 网 络 上 。 ifa ifwithdst 和 ifa_ifwithnet 通 过 在 配置 的 接口 中 搜索 
匹配 的 目的 地 址 (一 个 点 到 点 的 接口 或 匹配 的 网 络 地 址 (广播 接口 ) 来 寻找 一 条 到 下 一 个 系统 的 
路 由 。 而 在 宽松 路 由 中 ，ip_rtaddr( 图 9-11) 通 过 查询 路 由 表 来 寻找 到 下 一 个 系统 的 路 由 。 
如 果 没 有 找到 到 下 一 系统 的 接口 或 路 由 ， 就 发 送 一 个 ICMP 源 路 由 失败 差错 报 文 。 
638-644 ”如 果 找到 一 个 接口 或 一 条 路 由 ， 则 ip_dooptions 把 ip_dst 设 置 成 off 指 向 的 
IP 地 址 。 在 源 路 由 选项 内 ， 用 外 出 接口 的 地 址 代替 中 间 系 统 的 地 址 ， 把 位 移 增 加 ， 指 向 路 由 
中 的 下 一 个 地 址 。 

3. 多 播 目 的 地 
645-646 ”如 果 新 的 目的 地 址 不 是 多 播 地 址 。， 就 将 forward 设 置 成 1， 表 明 在 处 理 完 所 有 选 
项 后 ， 应 该 把 分 组 转发 而 不 是 返回 给 ipintr。 

源 路 由 中 的 多 播 地 址 允许 两 个 多 播 路 由 器 通过 不 支持 多 播 的 中 间 路 由 器 进行 通信 。 第 14 
章 详细 描述 了 这 一 技术 。 
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卷 1 的 8.5 节 有 更 多 的 源 路 由 选项 的 例子 。 


9.6.1 


save_rte 函 数 


RFC 1122 要 求 ， 在 最 终 目 的 地 ， 运 输 协议 必须 能 够 使 用 分 组 中 被 记录 下 来 的 路 由 。 运 输 
协议 必须 把 该 路 由 倒 过 来 并 附 在 所 有 应 答 的 分 组 上 。 图 9-18 中 显示 的 save_rte 函 数 ， 把 源 
路 由 保存 在 如 图 9-16 所 示 的 ip_srcrt 结 构 中 。 








57 int ip nhops - 0; ip-mput.c 
58 static struct ip srcrt ( 
59 struct in addr dst; /* final destination */ 
60 char nop; /* one NOP to align */ 
61 char Srcopt[IPOPT OFFSET + 1]; /* OPTVAL, OLEN and OFFSET */ 
62 struct in_addr route[MAX IPOPTLEN / sizeof(struct in addr)]; 
63 ) ip srcrt; l 
ip_input.c 


57-63 


图 9-16 结构 ip_srcrt 


Route 的 声明 是 不 正确 的 ， 尽 管 这 不 是 个 恶性 错误 。 应 该 是 


Struct in addr route((MAX IPOPTLEN - 3)/sizeof(struct in addr)]; 
对 图 9-26 和 图 9-27 的 讨论 详细 地 说 明了 这 个 问题 。 
该 代码 定义 了 ip_srcrt 结 构 , 并 声明 了 静态 变量 ip_srcrt。 只 有 两 个 国 数 访问 


ip_srcrt: save_rte， 把 到 达 分 组 中 的 源 路 由 复制 到 ip_srcrt 中 ; ip srcroute, 创 
建 一 个 与 源 路 由 方向 相 逆 的 路 由 。 图 9-17 说 明了 源 路 由 处 理 过 程 。 
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od Cr 


图 9-17 对 求 逆 后 的 源 路 由 的 处 理 





ip input.c 


void 
save rte(option, dst) 
u char *option; 
struct in_addr dst; 
{ 

unsigned olen; 


olen = option[IPOPT OLENj; 
if (olen > sizeof(ip srcrt) - (1 + sizeof(dst))) 
return; 
bcopy((caddr t) option, (caddr t) ip srcrt.srcopt, olen); 
ip nhops = (olen - IPOPT OFFSET - 1) / sizeof(struct in_addr); 
ip srcrt.dst - dst; 


ip input.c 
图 9-18 iW save rte 
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当 -- 个 源 路 由 选择 的 分 组 到 达 目 的 地 时 ，ip_adooptions 调 用 save_rte。 
option 是 一 个 指向 分 组 的 源 路 由 选项 的 指针 ，qst 是 从 分 组 首部 来 的 ip_src (也 就 是 ， 返 回路 
由 的 目的 地 ， 图 9-12 中 的 HS)。 如 果 选 项 的 长 度 超过 ip_srcrt 结 构 ，save_rte 立 即 返回 。 


永远 也 不 可 能 发 生 这 种 情况 ， 因 为 ip_srcrt 结 构 比 最 大 选项 长 度 (40 字 节 ) 要 大 。 
save_rte 把 该 选项 复制 到 ip_srcrt， 计 算 并 保存 ijp_nhops 中 源 路 由 的 跳 数 ， 把 返回 


路 由 的 日 的 地 保存 在 dst 中 。 


9.6.2 ip srcrouteifAT 


当 响 应 某 个 分 组 时 ，ICMP 和 标准 的 运输 层 协议 必须 把 分 组 带 的 任意 源 路 由 逆转 。 逆 转 源 


路 由 是 通过 ip_srcroute 保 存 的 路 由 构造 的 ， 如 图 9-19 所 示 。 
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struct mbuf * 
ip.srcroute() 


{ 


#define OPTSIZ 


struct in_addr *p, *q; 
struct mbuf *m; 


if (ip nhops -- O0) 

return ((struct mbuf *) 0); 
m - m get (M DONTWAIT, MT SOOPTS); 
if (m == 0) 

return ((struct mbuf *) 0); 


/* length is (nhops*«1)*sizeof(addr) + sizeof (nop + srcrt header) 
m-»m len = ip nhops * sizeof(struct in addr) + sizeof(struct in addr) + 


OPTSIZ; 


/* 
* First save first hop for return route 
*/ 
p = &ip srcrt.route[ip nhops - 1]; 
*(mtod(m, struct in addr *)) - *p--; 


/* 
* Copy option fields and padding (nop) to mbuf. 
*/ 
ip srcrt.nop - IPOPT NOP; 
ip srcrt.srcopt([IPOPT OFFSET] = IPOPT MINOFF; 
bcopy((caddr t) & ip srcrt.nop, 


mtod(m, caddr t) + sizeof(struct in_addr), OPTSIZ); 


q = (struct in_addr *) (mtod(m, caddr t) + 


sizeof (struct in addr) + OPTSIZ); 


$undef OPTSIZ 


/* 
* Record return path as an IP source route, 
* reversing the path (pointers are now aligned). 
*/ 
while (p »- ip srcrt.route) ( 
*q*t = *p--; 
J 
/* 
* Last hop goes to final destination. 


图 9-19 ip_srcroute 国 数 


(sizeof(ip srcrt.nop) + sizeof(ip srcrt.srcopt)) 


ip input.c 


*/ 
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815 */ 
816 *q - ip srcrt.dst; 
817 return (m); 
818 ) 
ip input.c 





图 9-19 ( 续 ) 


777-783 ip_srcroute 把 保存 在 ip_srcrt 结 构 中 的 源 路 由 逆转 后 ， 返 回 与 ijpoption 
结构 (图 9-26) 格 式 类 似 的 结果 。 如 果 ip_nnops 是 0， 则 没有 保存 的 路 由 ， 所 以 
ip_srcroute 返 回 一 个 指针 。 
记得 在 图 8-13 中 ， 当 一 个 无 效 分 组 到 达 时 ，ipintr 把 ipb_nhops 清 零 。 运 输 层 

协议 必须 调用 ip._srcroute， 并 在 下 一 个 分 组 到 达 之 前 自己 保存 送 转 后 的 路 由 。 正 

如 以 前 我 们 注意 到 的 ， 这 样 做 是 正确 的 ， 因 为 ipintr 在 处 理 分 组 时 ， 在 IP 输 入 队列 的 

下 一 个 分 组 被 处 理 之 前 都 会 调用 运输 层 (TCP 或 UDP) 的 。 

为 源 路 由 分 配 存 储 器 缓存 
784-786 如 果 ip_nhops 非 0，ip_srcroute 就 分 配 一 个 mbuf， 并 把 m_len 设 置 成 足够 大 ， 
以 便 包含 第 一 跳 目 的 地 、 选 项 首部 信息 (OPTSIZ) 以 及 逆转 后 的 路 由 。 如 果 分 配 失 败 ， 则 返回 
一 个 空 指针 ， 跟 没有 源 路 由 一 样 。 | 

Pp 被 初始 化 为 指向 到 达 路 由 的 末尾 ，ip_srcroute 把 最 后 记录 的 地 址 复制 到 mbuf 的 前 面 ， 
在 这 里 它 为 外 出 的 第 一 跳 目的 地 开始 逆转 后 的 路 由 。 然 后 该 函数 把 一 份 NOP 选 项 (习题 9.4) 和 
源 路 由 信息 复制 到 mbuf 中 。 
805-818 ”While 循环 把 其 余 的 下 地 址 从 源 路 由 中 以 相反 的 顺序 复制 到 mbuf 中 。 路 由 的 最 
后 一 个 地 址 被 设置 成 到 达 分 组 中 被 save_rte 放 在 ip_srcrt.dst 中 的 源 站 地 址 。 返 回 一 个 
指向 mbuf 的 指针 。 图 9-20 说 明了 对 图 9-12 的 路 由 如 何 构造 逆转 的 路 由 。 
nop (IPOPT NOP) 
srcopt(0](IPOPT SSRR) 
srcopt[1] (option-length) 
srcopt [2] (option-offset) 







没有 使 用 





route[0] route[1] route{2] route[3-9] 


-eT esem | 





K—— — 源 路 由 选项 一 -| 


图 9-20 ip_srcroute 道 转 ip_srcrt 中 的 路 由 


9.7 HARAN 

当 分 组 穿 过 一 个 互联 网 时 ， 时 间 改 选项 使 各 个 系统 把 它 当 前 的 时 间 表 示 记 录 在 分 组 的 选 
项 内 。 时 间 是 以 从 UTC 的 午夜 开始 计算 的 毫秒 计 ， 被 记录 在 一 个 32 bit 的 字段 里 。 

如 果 系 统 没 有 准确 的 UTC( 几 分 钟 以 内 ) 或 没有 每 秒 更 新 至 少 15 次 , 就 不 把 它 作 为 标准 时 间 。 
非 标准 时 间 必 须 把 时 间 惟 字段 的 高 比特 位 置 位 。 
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有 三 种 时 间 惟 选项 类 型 ，Net/3 通 过 如 图 9-22 所 示 的 ip_timestamp 结 构 访问 。 
114-133 如同 ip 结 构 (图 8-10) 一 样 ，#ifs 保 证 比特 字段 访问 选项 中 正确 的 比特 位 。 图 9-21 
中 列 出 了 由 ipt_f1g 指 定 的 三 种 时 蕉 选项 类 型 。 


IPOOPT TS TSONLY PE 3E 
IPOPT TS TSANDADDR ide Hb ERUIT i ER 


保留 
IPOPT TS PRESPEC 只 在 预先 指定 的 系统 记录 时 间 戳 
保留 





图 9-21 ipt_f1g 可 能 的 值 





— ip.h 
114 struct ip timestamp ( 
115 u char ipt, code; /* IPOPT TS */ 
116 u_char ipt len; /* size of structure (variable) */ 
117 u char ipt ptr; /* index of current entry */ 
118 #if BYTE ORDER == LITTLE ENDIAN 
119 u_char ipt flg:4, /* flags, see below */ 
120 ipt oflw:4; /* overflow counter */ 
121 stendif 
122 #if BYTE ORDER -- BIG, ENDIAN 
123 u char ipt oflw:4, /* overflow counter */ 
124 ipt. f1g:4; /* flags, see below */ 
125 fendif 
126 union ipt timestamp { 
127 n long ipt, time[1]; 
128 struct ipt ta ( 
129 struct in_addr ipt ,addr; 
130 n long ipt time; 
131 ) ipt ta[1]; 
132 ) ipt timestamp; 
133 ); ip 


图 9-22 :ip_timestamp 结 构 和 常量 
初始 主机 必须 构造 一 个 具有 足够 大 的 数据 区 存放 可 能 的 时 间 惟 和 地 址 的 时 间 惟 选项 。 对 
于 ipt_f1g 为 3 的 时 间 惟 选项 ， 初 始 主机 在 构造 该 选项 时 ， 填 写 要 记录 时 间 惟 的 系统 的 地 址 。 
图 9-23 显 示 了 三 种 时 间 惟 选项 的 结构 。 


oflw 
flg 


odd, t time[1] time[2] time[n-2] 

68 | €^ |P*T (ptr » 4) (ptr -8) (ptr - 4n-8) 

odd; t 1 ta[1].addr | ta[1].time 

68 | PPH (ptr - 4) (ptr -8) 

oae 1 t ta[1].addr | ta[1].time ta["].addr | ta(n] . cime 
en|ptr (ptr - 4) (ptr -8) (ptr-8n-4)| (ptr-8m) 


4 字 节 4 字 节 4 字 节 4 字 节 
图 9-23 三 种 时 间 惟 选项 (省 略 ipt_) 
因为 下 选项 只 能 有 40 个 字 节 ， 所 以 时 戳 选 项 限制 只 能 有 9 个 时 改 (ipt_f1g 等 于 0) 或 4 个 地 















time{n-1] 
(ptr = 4n-4) 





time[] 
(ptr = 4n) 
ta[n].addr | ta[n] .上 ime 
(ptr = 81-4) (ptr = 8n) 
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址 和 时 间 惟 对 (ipt_f1g 等 于 1 或 3)。 图 9-24 显 示 了 对 三 种 不 同 的 时 戳 选 项 类 型 的 处 理 。 
674-684 如 果 选 项 长 度 小 于 5 个 字 节 (时 发 选项 的 最 小 长 度 )， 则 ip_aooptions 发 出 一 个 
ICMP 参 数 问题 差错 报 文 。of lw 字段 统计 由 于 选项 数据 区 满 而 无 法 登记 时 截 的 系统 个 数 。 如 
果 数 据 区 满 ， 则 oflw 加 1; 当 它 本 身 超 过 16( 它 是 一 个 4 bit 的 字段 ) 而 溢出 时 ， 发 出 一 个 ICMP 
参数 问题 差错 报 文 。 








674 case IPOPT TS: ip input.c 

675 code = cp - (u_char *) ip; 

676 ipt - (struct ip timestamp *) cp; 

677 if (ipt-»ipt len « 5) 

678 goto bad; 

679 if (ipt-»ipt ptr > ipt-»-ipt len - sizeof(long)) ( 

680 if (**ipt-»ipt oflw == O0) 

681 goto bad; 

682 break; 

683 } 

684 sin = (struct in_addr *) (cp + ipt-»ipt ptr - 1); 

685 Switch (ipt-»ipt flg) ( 

686 case IPOPT TS TSONLY: 

687 break; 

688 case IPOPT TS TSANDADDR: 

689 if (ipt-»ipt ptr + sizeof(n time) + 

690 sizeof (struct in_addr) > ipt-»ipt len) 

691 goto bad; 

692 ipaddr.sin addr - dst; 

693 ia = (INA) ifaof ifpforaddr((SA) & ipadár, 

694 m-»m pkthdr.rcvif); 

695 if (ia == 0) 

696 continue; 

697 bcopy((caddr t) & IA SIN(ia)-»sin addr, 

698 (caddr t) sin, sizeof(struct in addr)); 

699 ipt-»ipt ptr += sizeof(struct in, addr); 

700 break; 

701 case IPOPT TS PRESPEC: 

702 if (ipt-»ipt ptr + sizeof(n time) + 

703 sizeof (struct in addr) > ipt-»ipt len) 

704 goto bad; 

705 bcopy((caddr t) sin, (caddr t) & ipaddr.sin addr, 

706 sizeof(struct in, addr)):; 

707 if (ifa ifwithaddr((SA) & ipaddr) == 0) 

708 continue; 

709 ， ipt-»ipt ptr += sizeof(struct in, addr); 

710 break; 

711 . default:' 

712 goto bad; 

713 ) 

714 ntime - iptime(); 

715 bcopy((caddr t) & ntime, (caddr t) cp + ipt-»ipt ptr - 1, 

716 sizeof (n time));. 

717 ipt-»ipt ptr += sizeof (n time); 

718 } 

719 } 
ip input.c 


图 9-24 函数 ijp_dooptions: 时 间 惟 选项 处 理 
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1. PAHAR 
685-687 对 于 ipt_f1g 为 0 的 时 间 惟 选项 (IIPOPT_TS_TSONLY)， 所 有 的 工作 都 在 switch 
语 名 之 后 再 做 。 

2. 时 间 和 起 和 地 址 
688-700 对 于 ipt_fl1g 为 1 的 时 间 惟 选项 (IIPOPT_TS_TSANDADDR)， 接 收 接口 的 地 址 被 记 
录 下 来 (如 果 数 据 区 还 有 空间 )， 选 项 的 指针 前 进一步 。 因 为 NeV3 支 持 一 个 接收 接口 上 的 多 卫 
地 址 ， 所 以 ip_dooptions 调 用 itaof_ifpforaddr 选 择 与 分 组 的 初始 县 的 地 址 (也 就 是 在 
任何 源 路 由 选择 发 生 之 前 的 目的 地 ) 最 匹配 的 地 址 。 如 果 没 有 匹配 ， 则 跳 过 时 间 玲 选项 (INA 和 
SA 定义 如 图 9-15 所 示 )。 

3. 预定 地 址 上 的 时 间 稚 . 
701-710 如 果 ipt_f1g 为 3 (IPOPT TS PRESPEC), ifa ifwithadar 确 定 选项 中 指定 
的 下 一 个 地 址 是 否 与 系统 的 某 个 地 址 匹配 。 如 果 不 匹 配 ， 该 选项 要 求 在 这 个 系统 上 不 处 理 ; 
continue 使 jp_dooptions 继 续 处 理 下 一 个 选项 。 如 果 下 一 个 地 址 与 系统 的 某 个 地 址 匹配 ， 
则 选项 的 指针 前 进 到 下 一 个 位 置 ， 控 制 交 给 switch 的 后 面 。 

4. 4 ^ [8] 
711-713 default 截 获 无 效 和 的 ipt_fig 值 ， 并 把 控制 传递 到 bad。 
714-719 时 间 惟 用 switch 语 名 后 面 的 代码 写 人 到 选项 中 。iptime 返 回 自从 UTC 午夜 起 到 
现在 的 毫秒 数 ，ip_dqooptions 记 录 此 时 间 惟 ， 并 增加 此 选项 相对 于 下 一 个 位 置 的 念 移 。 


iptime 函 数 


图 9-25 显 示 了 iptime 的 实现 。 


458 n time Ip-icmp.c 
459 iptime() 
460 { 
461 struct timeval atv; 
462 u long t; 
463 microtime(&atv); 
464 t = (atv.tv sec $ (24 * 60 * 60)) * 1000 + atv.tv usec / 1000; 
465 return (htonl(t)); 
466 } "n 
ip icmp.c 


图 9-25 gpaditiptime 


458-466 microtime 返 回 从 UTC1970 年 1 月 1 日 午夜 以 来 的 时 间 ， 放 在 timeval 结 构 中 。 
从 午夜 以 来 的 毫秒 数 用 atv 计 算 ， 并 以 网 络 字 节 序 返回 。 

卷 1 的 7.4 节 有 几 个 时 间 惟 选项 的 例子 。 
9.8 :ip_insertoptions 函 数 

我 们 在 8.6 节 看 到 ，ip_output 函 数 接收 -一 个 分 组 和 选项 。 当 ip_forward 调 用 该 函数 
时 ， 选 项 已 经 是 分 组 的 一 部 分 ， 所 以 ip_forward 总 是 把 一 个 空 选 项 指针 传 给 ip_output。 
但 是 ， 运 输 屋 协议 可 能 会 把 由 ip_insertoptions( 由 图 8-22 中 的 jp_output 调 用 ) 合 并 到 
分 组 中 的 选项 传递 给 ip_forward。 
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ip_insertoptions 希 望 选项 在 ipoption 结 构 中 被 格式 化 ， 如 图 9-26 所 示 。 








92 struct ipoption ( ip_var.h 
93 struct in_addr ipopt_dst; /* first-hop dst if source routed */ 
94 char ipopt_list [MAX_IPOPTLEN]; /* options proper */ 
95 }; 
ip_var.h 


图 9-26 结构 ipoption 


92-95 该 结构 只 有 两 个 成 员 : ipopt_adst， 如 果 选 项 表 中 有 源 路 由 ， 则 其 中 有 第 一 跳 目 的 
地 ，ipopt_list， 是 一 个 最 多 40(MAX_IPOPTLEN) 字 节 的 选项 矩阵 ， 其 格式 我 们 在 本 章 中 
已 做 了 描述 。 如 果 选 项 表 中 没有 源 路 由 ， 则 ipopt_dst 全 为 0。 

注意 ，ip_srcrt 结 构 ( 图 9-16) 和 由 ip_srcroute( 图 9-19) 返 回 的 mbuf 都 符合 由 
ipoption 结 构 所 指定 的 格式 。 图 9-27 把 结构 ip_srcrt 和 ipoption 作 了 比较 。 


nop 
srcopt [0] 


srcopt[1] 
srcopt[2] 


ipoption() ipopt. list [40] $ | 


图 9-27 结构 ip_srcrt 和 :ipoption 














ip srcrt() route[2-9] 


2 


结构 ijp_srcrt 比 ijpoption 多 4 个 字 节 。 路 由 趣 阵 的 最 后 一 个 入口 (route[9]) 
永远 都 不 会 填 上 ， 因 为 这 样 的 话 ， 源 路 由 选项 将 会 有 44 字 节 长 ， 比 IP 首 部 所 能 容纳 
的 要 大 (图 9-16)。 
函数 ip_insertoptions 如 图 9-28 所 示 。 


352 static struct mbuf * ip output.c 
353 ip insertoptions(m, opt, phlen) 

354 struct mbuf *m; 

355 struct mbuf *opt; 

356 int *phlen; 


357 ( 

358 struct ipoption *p - mtod(opt, struct ipoption *); 
359 struct mbuf *n; 

360 struct ip *ip - mtod(m, struct ip *); 

361 unsigned optlen; 

362 optlen = opt-»m len ~ sizeof(p-»ipopt dst); 

363 if (optlen + (u short) ip-»ip len > IP, MAXPACKET) 
364 return (m); /* XXX should fail */ 
365 if (p-»ipopt. dst.s, addr) 

366 ip-»ip dst = p-»ipopt dst; 

367 if (m-»m flags & M EXT || m-»m data - optlen « m-»m pktdat) ( 
368 MGETHDR(n, M DONTWAIT, MT HEADER); 

369 if (n == 0) 


图 9-28 i" ip insertoptions 
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370 return (m); 

371 n-»m pkthdr.len = m-»m pkthdr.len + optlen; 

372 m-»m len -- sizeof(struct ip); 

373 m-»m data += sizeof(struct ip); 

374 n-»m next - m; 

375 m = n; 

376 m-»m len = optlen + sizeof (struct ip); 

377 m-»m data += max linkhdr; 

378 bcopy((caddr t) ip, mtod(m, caddr t), sizeof(struct ip)); 
379 ) else ( 

380 m-»m data -- optlen; 

381 m-»m len += optlen; 

382 m-»m pkthdr.len += optlen; . 

383 ovbcopy((caddr t) ip, mtod(m, caddr t), sizeof(struct ip)); 
384 } 

385 ip = mtod(m, struct ip *); 

386 bcopy((caddr t) p-»ipopt list, (caddr, t) “(ip + 1), (unsigned) optlen); 
387 *phlen = sizeof(struct ip) + optlen; 

388 ip-»ip len += optlen; 

389 return (m); 

390 ) 


ip output.c 
图 9-28 ( 续 ) 


352-364 ip_insertoptions 有 三 个 参数 : m， 外 出 的 分 组 ; opt， 在 结构 中 格式 化 的 选 
Ji; phlen， 一 个 指向 整数 的 指针 ， 在 这 里 返回 新 首部 的 长 度 (在 插入 选项 之 后 )。 如 果 插 和 人 
选项 分 组 长 度 超过 最 大 分 组 长 度 65 535(IP_MAXPACKET) 字 节 ， 则 自动 将 选项 丢弃 。 
ip_dooptions 认 为 ijp_insertoptions 永 远 都 不 会 失败 ， 所 以 无 法 报告 差错 。 幸 好 ， 很 
少 有 应 用 程序 会 试图 发 送 最 大 长 度 的 数据 报 ， 更 别 说 选项 了 。 


mbuf{} 


(20 字 节 ) 


字 节 ) 


BFD 


m pktdat 
max linkhdr 为 以 太 网 首部 
63:45) 分 配 的 
m_data 
IP 首 部 
(20 字 刷 ) 


TCP 首 部 
100 字 节 (20 字 节 ) 


447r. 





图 9-29 函数 ijp_insertoptions: TCP 报 文 段 
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365-366 如果 ipopt_dst.s_agddr 指 定 了 一 个 非 零 地 址 ， 则 选项 中 包括 了 源 路 由 ， 并 臣 
分 组 首部 的 ip_dqst 被 源 路 由 中 的 第 一 跳 目 的 地 代替。 

在 26.2 节 中 ， 我 们 将 看 到 TCP 调 用 MGETHDR 为 IP 和 TCP 首 部 分 配 一 个 单独 的 mbuf。 图 9-29 
显示 了 在 第 367~378 行 代码 执行 之 前 ， 一 个 TCP 报 文 段 的 mbuf 结 构 。 


mbufí) 


其 他 的 存储 器 缓存 





m data 
TCP 首 部 
COZ 
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图 9-30 iip insertoptions: 在 选项 被 复制 后 的 TCP 报 文 段 
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如 果 被 插入 的 选项 占据 了 多 于 16 的 字 节 数 ， 则 第 367 行 的 测试 为 真 ， 并 调用 MGETHDR 分 
配 另 一 个 mbuf。 图 9-30 显 示 了 选项 被 复制 到 新 的 mbuf 后 ， 该 缓存 的 结构 。 
367-378 如果 分 组 首部 被 存放 在 一 徐 ， 或 者 第 一 个 缓存 中 没有 多 余 选 项 的 空间 ， 则 
ip_insertoptions 分 配 一 个 新 的 分 组 首部 mbuf， 初 始 化 它 的 长 度 ， 从 旧 的 缓存 中 把 该 IP 
首部 截取 下 来 ， 并 把 该 首部 从 旧 缓 存 中 移动 到 新 缓存 中 。 

如 23.6 节 中 所 述 ，UDP 使 用 M_PREPEND 把 UDP 和 IP 首 部 放置 到 缓存 的 最 后 ， 与 数据 分 离 。 
如 图 9-31 所 示 。 因 为 首部 是 放 在 缓存 的 最 后 ， 所 以 在 缓存 中 总 有 空间 存放 选项 ， 对 UDP 来 说 ， 
第 367 行 的 条 件 总 为 假 。 
379-384 如果 分 组 在 缓存 数据 区 的 开始 部 分 有 存放 选项 的 空间 ， 则 修改 m_data 和 m_len， 
以 包含 optlen 更 多 的 字 节 。 并 且 当 前 的 IP 首 部 被 ovbcopy( 能 够 处 理 源 站 和 目的 站 的 重 倒 问 
题 ) 移 走 ， 为 选项 腾 出 位 置 。 
385-390 ip_insertoptions 现 在 可 以 把 ijpoption 结 构 的 成 员 ipopt_1ist 直 接 复 制 
到 紧 接 在 IP 首 部 后 面 的 缓存 中 。 把 新 的 首部 长 度 存放 在 *+phlen 中 ， 修 改 数据 报 长 度 
(ip_len)， 并 返回 一 个 指向 分 组 首部 缓存 的 指针 。 


9.9 ip_pcbopts 函 数 


疯 数 ip_pcbopts 把 IP 选 项 表 及 IP_OPTIONS 插 口 选 项 转换 成 ijp_output 希 望 的 格式 : 
ipoption 结 构 。 如 图 9-32 所 示 。 





559 int ip-output.c 
560 ip pcbopts(pcbopt, m) 

561 struct mbuf **pcbopt; 

562 struct mbuf *m; 

563 ( 

564 cnt, optlen; 

565 u_char *cp; 

566 u char opt; 

567 /* turn off any old options */ 

568 if (*pcbopt) 

569 (void) m free(*pcbopt); 

570 *pcbopt = 0; 

571 if (m == (struct mbuf *) 0 || m-»m len == 0) ( 
572 /* 

573 * Only turning off any previous options. 
574 */ 

575 if (m) 

576 (void) m free(m); 

577 return (0); 

578 H ] 

579 if (m-»m len % sizeof(long)) 

580 goto bad; 

581 /* 

582 * IP first-hop destination address will be stored before 
583 * actual options; move other options back 
584 * and clear it when none present. 

585 */ 

586 if (m-»m data * m-»m len * sizeof(struct in addr) »- &m-»m dat[MLEN]) 
587 goto bad; 

588 cnt - m-»m len; 

589 m-»m len += sizeof(struct in, addr); 
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590 Cp = mtod(m, u char *) + sizeof(struct in addr); 
591 ovbcopy (mtod(m, caddr t), (caddr t) cp, (unsigned) cnt); 
592 bzero(mtod(m, caddr t), sizeof(struct in addr)); 
593 for (; cnt > 0; cnt -= optlen, cp += optlen) ( 
594 opt = cp[IPOPT OPTVAL]; 
595 if (opt == IPOPT EOL) 
596 break; 
597 if (opt == IPOPT. NOP) 
598 optlen = 1; 
599 else ( 
600 optlen - cp[IPOPT OLEN]; 
601 if (optlen «- IPOPT OLEN || optlen > cnt) 
602 goto bad; 
603 ) 
604 switch (opt) ( 
605 default: 
606 break; 
607 case IPOPT LSRR: 
608 case IPOPT SSRR: 
609 /* 
610 * user process specifies route as: 
611 *  -»A-»2B-»C-»D 
612 * D must be our final destination (but we can't 
613 * check that since we may not have connected yet). 
614 * A is first hop destination, which doesn't appear in 
615 * actual IP option, but is stored before the options. 
616 */ 
617 if (optlen < IPOPT MINOFF - 1 + sizeof(struct in addr)) 
618 goto bad; 
619 m-»m len -= sizeof(struct in addr); 
620 cnt -- sizeof(struct in addr); 
621 optlen -= sizeof(struct in addr); 
622 Cp[IPOPT OLEN] - optlen; 
623 /* 
624 * Move first hop before start of options. 
625 */ 
626 bcopy((caddr t) & cp[IPOPT OFFSET + 1], mtod(m, caddr t), 
627 sizeof(struct in addr)); 
628 /* 
629 * Then copy rest of options back 
630 * to close up the deleted entry. 
631 */ 
632 ovbcopy((caddr t) (&cp[IPOPT OFFSET + 1) + 
633 sizeof(struct in addr)), 
634 (caddr t) & cp[IPOPT OFFSET + 1], 
635 (unsigned) cnt + sizeof(struct in addr)); 
636 break; 
637 ) 
638 } 
639 if (m-»m len > MAX IPOPTLEN + sizeof (struct in addr)) 
640 goto bad; 
641 *pcbopt = m; 
642 return (0); 
643 bad: 
644 (void) m free(m); 
645 return (EINVAL); 
646 } . 
ip. output.c 





图 9-32 (£3) 
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559-562 第 一 个 参数 ，pcbopt 引 用 指向 当前 选项 表 的 指针 。 然 后 该 函数 用 一 个 指向 新 的 
选项 表 的 指针 来 代替 该 指针 ， 这 个 新 选项 表 是 由 第 二 个 参数 m 指 向 的 缓存 链 所 指定 的 选项 构造 
而 来 。 该 过 程 所 准备 的 选项 表 ， 将 被 包含 在 IP_OPTIONS 揪 口 选 项 中 ， 除 了 LSRR 和 SSRR 选 
项 的 格式 外 ， 看 起 来 象 一 个 标准 的 下 选项 表 。 对 这 些 选 项 ， 第 一 跳 目的 地 址 是 作为 路 由 的 第 
一 个 地 址 出 现 的 。 图 9-14 显 示 ， 在 外 出 的 分 组 中 ， 第 一 跳 目 的 地 址 是 作为 目的 地 址 出 现 的 ， 
而 不 是 路 由 的 第 一 个 地 址 。 

1. 扔 掉 以 前 的 选项 
563-580 所 有 被 mn_free 和 *pcbopt 扔 掉 的 选项 都 被 清除 。 如 果 该 过 程 传 来 一 个 空 缓存 或 
者 根本 不 传递 缓存 ， 则 该 函数 不 安装 任何 新 的 选项 ， 并 立即 返回 。 

如 果 新 选项 表 没 有 填充 到 4 bit 的 边界 ， 则 ip_pcbopts 跳 到 bad， 扔 掉 该 表 ， 并 返回 
EINVAL. 


该 函数 的 其 余部 分 重新 安排 访 表 ， 使 其 看 起 来 象 一 个 jpoption 结 构 。 图 9-33 显 示 了 这 个 


NOP 





图 9-33 ip_pcbopts 选 项 表 处 理 


2. 为 第 一 跳 目 的 地 膳 出 位 置 
581-592 ”如 果 缓 存 中 没有 位 置 ， 则 把 所 有 的 数据 都 向 缓存 的 末尾 移动 4 个 字 节 (是 一 个 
in_addar 结 构 的 大 小 )。ovbcopy 完 成 复制 。bzero 清 除 缓存 开始 的 4 个 字 节 。 

3. 扫描 选项 表 . 
593-606 ， for 循环 扫描 选项 表 ， 寻 找 LSRR 和 SSRR 选 项 。 对 多 字 节 选项 ， 该 循环 也 验证 选 
项 的 长 度 是 否 合理 。 i 

4. 重新 安排 LSRR 和 SSRR 选 项 
607-638 ” 当 该 循环 找到 一 个 LSRR 或 SSRR 选 项 时 ， 它 把 缓存 的 大 小 、 循 环 变量 和 选项 长 度 
碱 去 4， 因 为 选项 的 每 一 个 地 址 将 被 移 走 ， 并 被 移 到 缓存 的 前 面 。 

bcopy 把 第 一 个 地 址 移 走 ，ovbcopy 把 选项 的 其 他 部 分 移动 4 个 字 节 ， 来 填补 第 一 个 地 


£93 有 P 选 项 处 理 — 217 


hE FZR. 

5. 清除 
639-646 循环 结束 后 ， 选 项 表 的 大 小 (包括 第 一 跳 地 址 ) 必 须 不 超过 44 (MAX IPOPTLEN +4) 字 
节 。 更 长 的 选项 表 无 法 放 入 IP 分 组 的 首部 。 该 表 被 保存 在 *pcbopt 中 ， 图 数 返 回 。 


9.10 一 些 限 制 


除了 管理 和 诊断 工具 生成 的 IP 数 据 报 外 ， 很 少 出 现 选项 。 卷 1 讨论 了 两 个 最 常用 的 工具 ， 
ping 和 traceroute。 使 用 IP 选 项 的 应 用 程序 很 难 写 。 编 程 接口 的 文档 很 少 ， 也 没有 很 好 地 
标准 化 。 许 多 厂商 提供 的 应 用 程序 ， 比 如 Telnet 和 FTP， 并 没有 为 用 户 提供 方法 ， 来 指定 如 源 
路 由 等 的 选项 。 

在 大 的 互联 网 上 ， 记 录 路 由 、 时 间 惟 和 源 路 由 选项 的 用 途 被 耳 首部 的 最 大 长 度 所 限制 。 
许多 路 由 含有 的 跳 数 远 多 于 40 选 项 字 节 所 能 表示 的 。 当 多 选项 在 同一 分 组 中 出 现时 ， 所 能 得 
到 的 空间 是 几乎 没有 用 的 。IPv6 用 一 个 更 为 灵活 的 选项 首部 设计 强调 了 这 个 问题 。 

在 分 片 过 程 中 ，IP 只 把 某 些 选项 复制 到 非 初始 片上 ， 因 为 重组 时 会 扔 掉 非 初始 片上 的 选 
项 。 在 目的 主机 上 ， 运 输 层 协 议 只 能 用 到 初始 片上 的 选项 (10.6 节 )。 但 有 些 选项 ， 如 源 路 由 ， 
即使 在 目的 主机 上 ， 被 非 初 始 片 丢弃 ， 依 然 必须 被 复制 到 每 个 分 片 。 


9.11 小 结 


本 章 中 我 们 显示 了 IP 选 项 的 格式 和 处 理 过 程 。 我 们 没有 讨论 安全 和 流 ID 选 项 ， 因 为 Net/3 
没有 实现 它们 。 

我 们 看 到 ， 多 字 节 选项 的 大 小 是 由 源 主机 在 构造 它们 时 确定 的 。 最 大 选项 首部 长 度 只 有 
40 字 节 ， 这 严格 限制 了 IP 选 项 的 使 用 。 

源 路 由 选项 要 求 最 多 的 支持 。 到 达 的 源 路 由 被 save_rte 保 存 ， 并 保留 在 ip_srcroute 
中 。 通 常 不 转发 分 组 的 主机 可 能 转发 源 路 由 选择 的 分 组 ， 但 是 RFC 1122 默 认 要 求 不 允许 这 种 
功能 。Net/3 没 有 对 这 种 特性 的 判断 ， 总 是 转发 源 路 由 选择 的 分 组 。 

最 后 ， 我 们 看 到 ip_insertoptions 是 如 何 把 选项 插入 到 一 个 外 出 的 分 组 中 去 的 。 
习题 

9.1 如 果 一 个 分 组 中 有 两 个 不 同 的 源 路 由 选项 会 发 生 什么 情况 ? 

92 一 些 商用 路 由 器 可 以 被 配置 成 按照 分 组 的 了 P 目 的 地 址 扔 掉 它们 。 通 过 种 方式 ， 可 以 

把 一 台 或 一 组 主机 通过 路 由 器 隔离 在 更 大 的 互联 网 之 外 。 请 描述 源 路 由 选择 的 分 组 
如 何 绕 过 这 个 机 制 。 假 定 网 络 中 至 少 有 一 个 主机 ， 路 由 器 没有 阻塞 ， 并 转发 源 路 由 
选择 的 数据 报 。 

9.3 某 些 主机 可 能 没有 被 配置 成 默认 路 由 。 这 样 主机 就 无 法 路 由 选择 到 其 他 与 它 直接 相 

连 的 网 络 。 请 描述 源 路 由 如 何 与 这 种 类 型 的 主机 通信 。 

9.4 为 什么 NOP 采 用 如 图 9-16 所 示 的 ip_srcrt 结 构 ? 

9.5 有 时间 改选 项 中 非 标准 时 间 值 会 和 标准 时 间 值 混淆 吗 ? 

9.6 ip_dooptions 在 处 理 其 他 选项 之 前 要 把 分 组 的 目的 地 址 保存 在 dest 中 (图 9-8)。 

为 什么 ? 


第 10 章 IP 的 分 片 与 重 装 


10.1 引言 


我 们 将 第 8 章 的 下 的 分 片 与 重 装 处 理 问 题 推迟 到 本 章 来 讨论 。 

IP 具 有 一 种 重要 功能 ， 就 是 当 分 组 过 大 而 不 适合 在 所 选 硬件 接口 上 发 送 时 ， 能 够 对 分 组 
进行 分 片 。 过 大 的 分 组 被 分 成 两 个 或 多 个 大 小 适合 在 所 选 定 网 络 上 发 送 的 IP 分 片 。 而 在 去 目 
的 主机 的 路 途中 ， 分 片 还 可 能 被 中 间 的 路 由 器 继续 分 片 。 因 此 ， 在 目的 主机 上 ， 一 个 下 数据 
报 可 能 放 在 一 个 IP 分 组 内 ， 或 者 ， 如 果 在 发 送 时 被 分 片 ， 就 放 在 多 个 IP 分 组 内 。 因 为 各 个 分 
片 可 能 以 不 同 的 路 径 到 达 目 的 主机 ， 所 以 只 有 目的 主机 才 有 机 会 看 到 所 有 分 片 。 因 此 ， 也 只 
有 目的 主机 才能 把 所 有 分 片 重 装 成 一 个 完整 的 数据 报 ， 提 交 给 合适 的 运输 层 协议 。 

图 8-5 显 示 在 被 接收 的 分 组 中 ，0.3%(72 786/27 881 978) 是 分 片 ，0.12% (264 484/ 
(29 447 726-796 084)) 的 数据 报 是 被 分 片 后 发 送 的 。 在 world .std.com 上 ， 被 接收 分 组 的 
9.5% 是 被 分 片 的 。worlqQd 有 更 多 的 NFS 活 动 ， 这 是 IP 分 片 的 主要 来 源 。 

IP 首 部 内 有 三 个 字段 实现 分 片 和 重 装 : 标识 字段 (ip_id)、 标 志 字段 (ip_off 的 3 个 高 位 
比特 ) 和 偏 移 字段 (ip_off 的 13 个 低位 比特 )。 标 志 字 段 由 三 个 1 bit 标 志 组 成 。 比 特 0 是 保留 的 ， 
必须 为 0; 比特 1 是 “不 分 片 ”(DF) 标 志 ; 比特 2 是 “更 多 分 片 ” (MP) 标 志 。 Net/3 中 ， 标 志和 
偏 移 字 段 结合 起 来 ， 由 ip_off 访 问 ， 如 图 10-1 所 示 。 


ip off (o Der 分 片 偏 移 
1 1 1 


13 比 特 
图 10-1 ip_off 控 制 IP 分 组 的 分 片 


Net/3 通 过 用 IP_DF 和 IP_MF 掩 去 ip_off 来 访问 DF 和 MF。IP 实 现 必须 允许 应 用 程序 请 求 
在 输出 的 数据 报 中 设置 DF 比特 。 
当 使 用 UDP 或 TCP 时 ，Net/3 并 不 提供 对 DF 比特 的 应 用 程序 级 的 控制 。 
进程 可 以 用 原始 IP 接 口 ( 第 32 章 ) 构 造 和 发 送 它 自己 的 IP 首 部 。 运 输 层 必须 直接 设 
置 DF 比特 。 例 如 ， 当 TCP 运 行 “ 路 径 MTU 发 现 (path MTU discovery)” 时 。 


ip_off 的 其 他 13 bit 指 出 在 原始 数据 报 内 分 片 的 位 置 ， 以 8 字 节 为 单元 计算 。 因 而 ， 除 最 
后 一 个 分 片 外 ， 其 他 每 个 分 片 都 希望 是 一 个 8 字 节 倍数 的 数据 ， 从 而 使 后 面 的 分 片 从 8 字 节 边 
。 界 开始 。 图 10-2 显 示 了 在 原始 数据 报 内 的 字 节 偏 移 关 系 ， 以 及 在 分 片 的 下 首部 内 分 片 的 偏 移 
(ip_off 的 低位 13 bio. 

图 10-2 显 示 了 把 一 个 最 大 的 IP 数 据 报 分 成 8190 个 分 片 ， 除 最 后 一 个 分 片 包含 3 个 字 节 外 ， 
其 他 每 个 分 片 都 包含 8 个 字 节 。 图 中 还 显示 ， 除 最 后 一 个 分 片 外 ， 设 置 了 其 余 分 片 的 MF 比特 。 
这 是 一 个 不 太 理想 的 例子 ， 但 它 说 明了 一 些 实现 中 存在 的 问题 。 
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m icm 
1 
15 16 aa a? E 65511 65514 
| uei wee | 
| uei wee | f=0 MF-0 
20 i 8c 83-5 
IP 首 部 
ip off-0 MF-1 : 
207 vi sE : 
IP 首 部 : 
ip off-1 -1 : 
20:5 spt | : 
PHN 
ip off-2 MF-1 
207 。 vl 
IP 首 部 
ip_off=8188 MF-1 
20 字 第 节 
ip offe Ep "s 


207r 45 


图 10-2 65535 字 节 的 数据 报 的 分 片 


原始 数据 报 上 面 的 数字 是 该 数据 部 分 在 数据 报 内 的 字 节 偏 移 。 分 片 偏 移 (ip_off) 是 从 数 
据 报 的 数据 部 分 开始 计算 的 。 分 片 不 可 能 含有 偏 移 超过 65514 的 字 节 ， 因 为 如 果 这 样 的 话 ， 重 
装 的 数据 报 会 大 于 65535 字 节 一 一 这 是 ip_len 字 段 的 最 大 值 。 这 就 限制 了 ip_off 的 最 大 值 为 
8189(8189 x 8=65512)， 只 为 最 后 一 个 分 片 留 下 3 字 节 空间 。 如 果 有 IP 选 项 ， 则 偏 移 还 要 小 些 。 

因为 IP 互 联网 是 无 连接 的 ， 所 以 ， 在 目的 主机 上 ， 来 自 一 个 数据 报 的 分 片 必然 会 与 来 自 
其 他 数据 报 的 分 片 交错 。ip_id 唯 一 地 标识 某 个 特定 数据 报 的 分 片 。 源 系统 用 相同 的 源 地 址 
(ip_src)、 目 的 地 址 (ip_dast) 和 协议 (ip_p) 值 ， 作 为 数据 报 在 互联 网 上 生命 期 的 值 ， 把 每 
个 数据 报 的 ip_id 设 置 成 一 个 唯一 的 值 。 

总 而 言 之 ， ip_iq 标 识 了 特定 数据 报 的 分 片 , ip_off 确 定 了 分 片 在 原始 数据 报 内 的 位 置 ， 
除 最 后 一 个 分 片 外 ，MF 标 识 每 个 分 片 。 


10.2 代码 介绍 


重 装 数据 结构 出 现在 一 个 头 文件 里 。 两 个 C 文 件 中 有 重 装 和 分 片 处 理 的 代码 。 这 三 个 文件 
列 在 图 10-3 中 。 f 


描 述 
netinet/ip_var.h 重 装 数据 结构 


netinet/ip_output.c 分 片 代码 
netinet/ip_input.c 重 装 代码 


图 10-3 本 章 讨论 的 文件 
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10.2.1 全 局 变量 
本 章 中 只 有 一 个 全 局 变量 ，ipq。 如 图 10-4 所 示 。 


图 10-4 本 章 介绍 的 全 局 变量 









10.2.2 统计 量 
分 片 和 重 装 代码 修改 的 统计 量 如 图 10-5 所 示 。 它 们 是 图 8-4 的 ipstat 结 构 中 所 包含 统计 
量 的 子 集 。 
ips_cantfrag 要 求 分 片 但 被 DF 比特 禁止 而 没有 发 送 的 数据 报 数 
ips_odropped 因为 内 存 不 够 而 被 丢弃 的 分 组 数 
ips_ofragments | 被 发 送 的 分 片 数 
ips fragmented | 为 输出 分 片 的 分 组 数 
图 10-5 本 章 收集 的 统计 量 
10.3 分 片 


我 们 现在 返回 到 ip_output， 分 析 分 片 代码 。 记 得 在 图 8-25 中 ， 如 果 分 组 正好 适合 选 定 
出 接口 的 MTU， 就 在 一 个 链 路 级 帧 中 发 送 它 。 否 则 ， 必 须 对 分 组 分 片 ， 并 在 多 个 帧 中 将 其 发 
送 。 分 组 可 以 是 一 个 完整 的 数据 报 或 者 它 自 己 也 是 前 边 系统 创建 的 分 片 。 我 们 分 三 个 部 分 讨 
论 分 片 代码 : 

。 确 定 分 片 大 小 (图 10-6); 

。 构 造 分 片 表 (图 10-7); 以 及 

。 构 造 第 一 个 分 片 并 发 送 分 片 (图 10-8)。 


253 m ip ouiput.c 
254 * Too large for interface; fragment if possible. 
255 * Must be able to put at least 8 bytes per fragment. 
256 */ 
257 if (ip-»ip off & IP DF) ( 
258 error - EMSGSIZE; 
259 ipstat.ips cantfrag-*-*; 
260 goto bad; 
261 } 
262 len = (ifp-»if mtu - hlen) & ^7; 
263 if (len « 8) ( 
264 error - EMSGSIZE; 
265 goto bad; 
266 ) . 
ip output.c 


图 10-6 mHiMEip output: 确定 分 片 大 小 
253-261 分 片 算法 很 简单 ， 但 由 于 对 mbuf 结 构 和 链 的 操作 使 实现 非常 复杂 。 如 果 DEF 比特 禁 
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止 分 片 ， 则 ip_output 丢 弃 该 分 组 ， 并 返回 EMSGSIZE。 如 果 该 数据 报 是 在 本 地 生成 的 ， 则 
运输 层 协议 把 该 错误 传 回 该 进程 ; 但 如 果 分 组 是 被 转发 的 ， 则 ip_forwardq 生 成 一 个 ICMP 目 
的 地 不 可 达 差 错 报 文 ， 并 指出 不 分 片 就 无 法 转发 该 分 组 (图 8-21)。 

Net/3 没 有 实现 “路 径 MTU 发 现 ”算法 ， 该 算法 用 来 搜索 到 目的 主机 的 路 径 ， 并 发 现 所 有 
中 间 网 络 支持 的 最 大 传送 单元 。 卷 1 的 11.8 节 和 24.2 节 讨论 了 UDP 和 TCP 的 路 径 MTU 发 现 。 
262-266 ”每 个 分 片 中 的 数据 字 节 数 ，len 的 计算 是 用 接口 的 MTU 减 去 分 组 首部 的 长 度 后， 会 
去 低位 的 3 个 比特 (&~7)。 后 成 为 8 字 节 倍数 。 如 果 MTU 太 小 ， 使 每 个 分 片 中 无 法 含有 8 字 节 的 
数据 ， 则 ip_output 返 回 EMSGSIZE。 

每 个 新 的 分 片 中 都 包含 : 一 个 了 首部、 某 些 原始 分 组 中 的 选项 以 及 最 多 1en 长 度 的 数据 。 

图 10-7 中 的 代码 ， 以 一 个 C 的 复合 语句 开始 ， 构 造 了 从 第 2 个 分 片 开始 的 分 片 表 。 在 表 生 
成 后 (图 10-8)， 原 来 的 分 组 被 转换 成 第 一 个 分 片 。 





267 ( tp. output.c 
268 int mhlen, firstlen - len; 

269 struct mbuf **mnext = &m-»m nextpkt; 

270 /* 

271 * Loop through length of segment after first fragment, 

272 * make new header and copy data of each part and link onto chain. 
273 */ 

274 mO = m; 

275 mhlen = sizeof(struct ip); 

276 for (off = hlen + len; off < (u,short) ip-»ip len; off += len) ( 
277 MGETHDR (m, M DONTWAIT, MT HEADER); 

278 if (m == 0) ( 

279 error - ENOBUFS; 

280 ipstat.ips, odropped-««; 

281 goto sendorfree; 

282 } 

283 m-»m data += max linkhdr; 

284 mhip - mtod(m, struct ip *); 

285 *mhip - *ip; 

286 if (hlen » sizeof(struct ip)) ( 

287 mhlen = ip optcopy(ip, mhip) + sizeof(struct ip); 

288 mhip-»ip hl = mhlen >> 2; 

289 } 

290 m-»m len = mhlen; 

291 mhip-»ip.off = ((off - hlen) >> 3) + (ip-»ip off & "IP MF); 
292 if (ip-»ip.off & IP, MF) 

293 mhip-»ip off |= IP MF; 

294 if (off + len >= (u,short) ip-»ip len) 

295 len = (u,short) ip-»ip len - off; 

296 else 

297 mhip-»ip off |= IP MF; 

298 mhip-»ip len = htons((u,short) (len + mhlen)); 

299 m-»m next - m copy(m0, off, len); 

300 if (m-»m,next == 0) ( ^ 

301" (void) m freeí(m); 

302 error - ENOBUFS; /* ??? */ 

303 ipstat.ips odropped-««; 

304 goto sendorfree; 

305 ) 

306 m-»m pkthdr.len = mhlen + len; 


图 10-7 iip output: 构造 分 片 表 
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307 m-»m pkthdr.rcvif = (struct ifnet *) 0; 
308 mhip-»ip off = htons((u short) mhip-»ip off); 
309 mhip-»ip sum = O0; 
310 mhip-»ip sum = in cksum(m, mhlen); 
311 *mnmnext = m; 
312 mnext - &m-»m nextpkt; 
313 ipstat.ips ofragments-«-; 
314 ) 
ip. output.c 
图 10-7 ( 续 ) 
315 7* tp. output.c 
316 * Update first fragment by trimming what's been copied out 
317 * and updating header, then send each fragment (in order). 
318 */ 
319 m = m0; 
320 m adj(m, hlen + firstlen - (u short) ip-»ip len); 
321 m-»m pkthdr.len = hlen + firstlen; 
322 ip-»ip.len = htons((u,short) m-»m pkthdr.len); 
323 ip-»-ip off = htons((u short) (ip-»ip off | IP MF)); 
324 ip-»ip.sum = 0; 
325 ip-»ip.sum = in cksum(m, hlen); 
326 sendorfree: 
327 for (m = m0; m; m = mO) ( 
328 m0 = m-»m nextpkt; 
329 m-»m nextpkt = 0; 
330 if (error == 0) 
331 error - (*ifp-»if output) (ifp, m, 
332 (struct sockaddr *) dst, ro-»ro rt); 
333 else 
334 m freem(m); 
335 ) 
336 if (error == 0) 
337 ipstat.ips, fragmented-^«-*; 
338 ) . 
ip output.c 





图 10-8 pip output: 发 送 分 片 


267-269 外 部 块 人 允许 在 函数 中 离 使 用 点 更 近 一 点 的 地 方 定 义 mhlen、firstlen 和 mnext。 
这 些 变量 的 范围 一 直到 块 的 未 尾 ， 它 们 隐藏 其 他 在 块 外 定义 的 有 相同 名 字 的 变量 。 
270-276 因为 原来 的 缓存 链 现在 成 了 第 一 个 分 片 ， 所 以 for 循 环 从 第 2 个 分 片 的 偏 移 开 始 : 
hlen+len。 对 每 个 分 片 ，ip_output 采 取 以 下 动作 : 
。277-284 分 配 一 个 新 的 分 组 缓存 ， 调 整 m_data 指 针 ， 为 一 个 16 字 节 链 路 层 首 部 
(max_linkhdar) 腾 出 空间 。 如 果 ip_output 不 这 人 么 做 ， 则 网 络 接口 驱动 器 就 必须 再 分 
配 一 个 mbuf 来 存放 链 路 层 首部 或 移动 数据 。 两 种 工作 都 很 耗 时 ， 在 这 里 就 很 容易 避免 。 
。285-2390 从 原来 的 分 组 中 把 耻 首 部 和 了 选项 复制 到 新 的 分 组 中 。 前 者 复制 在 一 个 结构 
中 。ip_optcopy 只 复制 那些 将 被 复制 到 每 个 分 片 中 的 选项 (10.4 节 )。 
。291-397 设置 分 片 包括 MF 比 特 的 偏 移 字段 (ip_off)。 如 果 原 来 分 组 中 已 设置 了 MF 
比特 ， 则 在 所 有 分 片 中 都 把 MF 置 位 。 如 果 原 来 分 组 中 没有 设置 MF 比特 ， 则 除了 最 后 一 
个 分 片 外 ， 其 他 所 有 分 片 中 的 MF 都 置 位 。 
。298 ”为 分 片 设置 长 度 ， 解 决 首部 小 一 些 (ip_optcopy 可 能 没有 复制 所 有 选项 )， 以 及 
最 后 一 个 分 片 的 数据 区 小 一 些 的 问题 。 以 网 络 字 节 序 存储 长 度 。 
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*299-305 从 原始 分 组 中 把 数据 复制 到 该 分 片 中 。 如 果 必 要 ，m_copy 会 再 分 配 一 个 
mbuf。 如 果 m_copy 失 败 ， 则 发 出 ENOBUFS。sendqorfree 捷 弈 所 有 已 被 分 配 的 缓存 。 
"306-314 调整 新 创建 的 分 片 的 mbuf 分 组 首部 ， 使 其 具有 正确 的 全 长 。 把 新 分 片 的 接 
口 指针 清 堆 ， 把 ip_off 转 换 成 网 络 字 节 序 ， 计 算 新 分 片 的 检验 和 。 通 过 m_nextpkt 
把 该 分 片 与 前 面 的 分 片 链 接 起 来 。 
在 图 10-8 中 ，ip_output 构 造 了 第 一 个 分 片 ， 并 把 每 个 分 片 传递 到 接口 层 。 
315-325 把 未 尾 多 余 的 数据 截断 后 ， 原 来 的 分 组 就 被 转换 成 第 一 个 分 片 ， 同 时 设置 ME 比特 ， 
把 ip_len 和 ip_off 转 换 成 网 络 字 市 序 ， 计 算 新 的 检验 和 。 在 这 个 分 片 中 ， 保 留 所 有 的 IP 选 
项 。 在 目的 主机 重 装 时 ， 只 保留 数据 报 的 第 一 个 分 片 的 下 选 项 (图 10-28)。 某 些 选 项 ， 如 源 路 
由 选项 ， 必 须 被 复制 到 每 个 分 片 中 ， 即 使 在 重 装 时 都 被 丢弃 了 。 
326-338 此 时 ，ip_output 可 能 有 一 个 完整 的 分 片 表 ， 或 者 已 经 产生 了 错误 ， 都 必须 把 生 
成 的 那 部 分 分 片 表 丢弃 。for 循 环 遍历 该 表 ， 发 送 分 片 或 者 由 于 error 而 丢弃 分 片 。 在 发 送 
期 间 遇 到 的 所 有 错误 都 会 使 后 面 的 分 片 被 丢弃 。 


10.4 ip_optcopy 函 数 


在 分 片 过 程 中 ，ip_optcopy( 图 10-9) 复 制 到 达 分 组 (如 果 分 组 是 被 转发 的 ) 或 者 原始 数据 
报 中 (如 果 该 数据 报 是 在 本 地 生成 的 ) 中 的 选项 到 外 出 的 分 片 中。 





395 int ip. output.c 

396 ip optcopy(ip, jp) 

397 struct ip *ip, *jp; 

398 ( 

399 u char *cp, *dp; 

400 int opt, optlen, cnt; 

401 Cp = (u char *) (ip + 1); 

402 dp = (u char *) (jp + 1); 

403 cnt = (ip-»ip,hl << 2) - sizeof(struct ip); 

404 for (; cnt » 0; cnt -- optlen, cp «- optlen) ( 

405 opt = cp[0]; 

406 if (opt == IPOPT EOL) 

407 break; 

408 if (opt == IPOPT NOP) ( 

409 /* Preserve for IP mcast tunnel's LSRR alignment. */ 

410 *dp++ = IPOPT NOP; 

411 optlen - 1; 

412 continue; 

413 ) eise 

414 optien = Cp[IPOPT OLEN]; 

415 /* bogus lengths should have been caught by ip dooptions */ 

416 if (optlen » cnt) 

417 optlen - cnt; 

418 if (IPOPT COPIED(opt)) { 

419 bcopy((caddr t) cp, (caddr t) dp, (unsigned) optlen); 

420 dp += optlen; 

421 } 

422 } 

423 for (optlen = dp - {u_char *) (jp + 1); optlen & 0x3; optlen++) 

424 *dp++ = IPOPT EOL; 

425 return (optlen); 

426 ) . 
ip output.c 


图 10-9 函数 : 确定 分 片 大 小 
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395-422 ip_optcopy 的 参数 是 : ijp， 一 个 指向 外 出 分 组 的 下 首部 的 指针 ;，jp， 一 个 指向 
新 生成 的 分 片 的 下 首部 的 指针 ; ip._optcopy 初 始 化 cp 和 dp 指向 每 个 分 组 的 第 一 个 选项 ， 并 
在 处 理 每 个 选项 时 把 cp 和 dp 向 前 移动 。 第 一 个 for 循 环 在 每 次 重复 时 复制 一 个 选项 ， 当 它 遇 
到 EOL 选 项 或 已 经 检查 完 所 有 选项 时 。NOP 选 项 被 复制 ， 用 来 维持 后 继 选 项 的 对 齐 限 制 。 

NeU2 版 本 废除 了 NOP 选 项 。 

如 果 IPOPT_COPIED 指 示 copied 比 特 被 置 位 ， 则 ip_optcopy 把 选项 复制 到 新 片 中 。 图 

9-5 显 示 了 哪些 选项 的 copied 比 特 是 被 置 位 的 。 如 果 某 个 选项 的 长 度 太 大 ， 就 被 截断 ; 
ip_dooptions 应 该 已 经 发 现 这 种 错误 了 。 
423-426 第 2 个 for 循 环 把 选项 表 填 充 到 4 字 节 的 边界 。 由 于 分 组 首部 长 度 (ip_hlen) 是 [以 4 
字 节 为 单位 计算 的 ， 所 以 需要 这 个 操作 。 这 也 保证 了 后 面 跟着 的 运输 层 首部 与 4 字 节 边界 对 齐 。 
这 样 会 提高 性 能 ， 因 为 在 许多 运输 层 协 议 的 设计 中 ， 如 果 运 输 层 首部 从 一 个 32 bit 边 界 开始 ， 
那么 32 bit 首 部 字段 将 按照 32 bit 边 界 对 齐 。 在 某 些 机 器 上 ，CPU 访 问 32 bit 对 齐 的 字 有 困难 ， 
这 时 ， 这 种 字 节 安排 就 提高 了 CPU 的 性 能 。 

图 10-10 显 示 了 ip_optcopy 的 运行 。 





20 字 节 12 字 他 ILE 
IP 普 部 LSRR 选 项 | 表 尾 选项 
20 字 节 11 字 节 


图 10-10 在 分 片 中 并 不 复制 所 有 选项 


在 图 10-10 中 ， 我 们 看 到 ip_optcopy 不 复制 时 间 截 选项 ( 它 的 copied 比 特 为 0)， 但 却 复制 
LSRR 选 项 ( 它 的 copied 比 特 为 1 )。 为 了 把 新 选项 与 4 字 节 边界 对 齐 ，ip_optcopy 也 增加 了 一 
个 EOL 选 项 。 


10.5 重 装 


到 目前 为 止 ， 我们 已 经 讨论 了 数据 报 ( 或 片 ) 的 分 片 ， 现 在 再 回 到 ipintr 讨 论 重 装 过 程 。 
在 图 8-15 中 ， 我 们 把 ipintr 中 的 重 装 代码 省 路 了 ， 并 推迟 对 它 的 讨论 。ipintr 可 以 把 数据 
报 整个 地 交 给 运输 层 处 理 。ipintr 接 收 的 分 片 被 传 给 ip_reass， 由 它 尝 试 把 分 片 重 装 成 一 
个 完整 的 数据 报 。 图 10-11 显 示 了 ipintr 的 代码 。 

271-279 ”我 们 知道 ijp._off 包 含 DF 比 特 、MF 比 特 以 及 分 片 偏 移 。 如 果 MF 比 特 或 分 片 偏 移 
非 零 ， 则 DF 就 被 掩盖 掉 了 ， 分 组 就 是 一 个 必须 被 重 装 的 分 片 。 如 果 两 者 都 为 零 ， 则 分 组 就 是 
一 个 完整 的 数据 报 。 跳 过 重 装 代码 ， 执 行 图 10-11 中 最 后 的 else 语 句 ， 它 从 全 部 数据 报 长 度 
中 排除 了 首部 长 度 。 

280-286 _ m_pullup 把 位 于 外 部 答 上 的 数据 移动 到 mbuf 的 数据 区 。 我 们 记得 ， 如 果 一 个 组 
存 区 无 法 容纳 外 部 簇 上 的 一 个 IP 分 组 ， 则 SLIP 接 口 (5.3 节 ) 可 能 会 把 该 分 组 整个 返回 。 
m_daevget 也 会 全 部 返回 外 部 做 上 的 某 个 IP 分 组 (2.6 节 )。 在 mtoda 宏 (2.6 节 ) 开 始 工作 之 前 ， 
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ip. input.c 
271 ours: 
272 /* 
273 * If offset or IP MF are set, must reassemble. 
274 * Otherwise, nothing need be done. 
275 * (We could look in the reassembly queue to see 
276 * if the packet was previously fragmented, 
277 * but it's not worth the time; just let them time out.) 
278 */ 
279 if (ip-»ip.off & ^IP DF) ( 
280 if (m-»m flags & M EXT) ( /* XXX */ 
281 if ((m = m pullup(m, sizeof(struct ip))) == 0) ( 
282 ipstat.ips toosmalle4; 
283 goto next; 
284 ) 
285 ip - mtod(m, struct ip *); 
286 ) 
287 /* 
288 * Look for queue of fragments 
289 * of this datagram. 
290 */ 
291 for (fp = ipq.next; fp !- &ipq; fp = fp-»next) 
292 if (ip-»ip id == fp-»ipq id && 
293 ip-»ip src.s addr == fp-»ipq src.s addr && 
294 ip-»ip.dst.s addr == fp--ipq dst.s addr && 
295 ip-»ip.p == fp-»ipa p) 
296 goto found; 
297 fp = 0; 
298 found: 
299 /* 
300 * Adjust ip len to not reflect header, 
301 * set ip mff if more fragments are expected, 
302 * convert offset of this to bytes. 
303 */ 
304 ip->ip_len -= hlen; 
305 ((struct ipasfrag *) ip)-»ipf, mff &- ^1; 
306 if (ip-»ip off & IP,MF) 
307 ((struct ipasfrag *) ip)-»ipf mff l= 1; 
308 ip-»ip off <<= 3; 
309 /* 
310 * If datagram marked as having more fragments 
311 * or if this is not the first fragment, 
312 * attempt reassembly; if it succeeds, proceed. 
313 */ 
314 if (((struct ipasfrag *) ip)-»ipf mff & 1 |l ip-»ip off) { 
315 ipstat.ips, fragments«-*; 
316 ip = ip reass((struct ipasfrag *) ip, fp): 
317 if (ip == 0) 
318 goto next; 
319 ipstat.ips_reassembled++; 
320 m = dtom(ip); 
321 } else if (fp) 
322 ip_freef (fp); 
323 } else 
324 ipYip len c Me o — ip. input 


图 10-11 BE ipintr: 分 片 处 理 
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287-297 Net3 在 一 个 全 局 双向 链表 ipq 上 记录 不 完整 的 数据 报 。 这 个 名 字 可 能 容易 产生 误 
解 ， 因 为 这 个 数据 结构 并 不 是 一 个 队列 。 也 就 是 说 ， 可 以 在 表 的 任何 地 方 插入 和 删除 ， 并 不 
限制 一 定 要 在 末尾 。 我 们 将 用 名 词 “ 表 (lis) ”来 强调 这 个 事实 。 
ipintr 对 表 进行 线 性 搜索 ， 为 当前 分 片 找到 合适 的 数据 报 。 记 住 分 片 是 由 4 元 组 {ip_id、 
ip src. 、ip_dst 和 ip_p} 唯 一 标识 的 。ipqg 的 每 个 入 口 是 一 个 分 片 表 ， 如 果 ipintr 找 到 一 个 匹 
配 、 则 fp 指向 匹配 的 表 。 
Net/3 采 用 线性 搜索 来 访问 它 的 许多 数据 结构 。 尽 管 简 单 ， 但 是 当主 机 支持 大 量 
298-303 在 found 语 句 ，ipintr 为 方便 重 装 ， 修 改 了 分 组 : 
*304 ipintr 修 改 ip_lien， 从 中 减 去 标准 IP 首 部 和 任何 选项 。 我 们 必须 牢记 这 一 点 ， 
以 免 混淆 对 标准 ip_1len 解 释 的 理解 。 标 准 ip_1en 中 包含 了 标准 首部 、 选 项 和 数据 。 
如 果 跳 过 重 装 代码 ，ip_1len 也 会 被 改变 ， 因 为 这 个 分 组 不 是 一 个 分 片 。 
。305-307 ipintr 把 MF 标志 复制 到 ipf_mff 的 低位 ， 把 ip_tos 禾 盖 掉 (&="1 只 清除 
低位 )。 注 意 ， 在 ipf_mff 成 为 一 个 有 效 成 员 之 前 ， 必 须 把 ip 指 一 个 ipPasfrag 结 构 。 
10.6 节 和 图 10-14 描 “ 述 了 ipasfrag 结 构 。 
尽管 RFC 1122 要 求 IP 层 提供 菜 种 机 制 ， 允 许 运输 层 为 每 个 外 出 的 数据 报 设置 
ip_tos 比 特 。 但 它 只 推荐 在 目的 主机 ，IP 层 把 ip_tos 值 传 给 运输 层 。 因 为 TOS 
字段 的 低位 字 节 必须 总 是 0， 所 以 当 重 装 算 法 使 用 ip_off( 通 常 在 这 里 找到 MF 比特 ) 
时 ， 可 以 得 到 ME 比特 。 
现在 ， 可 以 把 ip_off 作 为 一 个 16 bit 偏 移 ， 而 不 是 3 个 标志 比特 和 一 个 13 bit 偏 移 来 访问 


。308 用 8 乘 ip_off， 把 它 从 以 8 字 节 为 单元 转换 成 以 1 字 节 为 单元 。 

ipf_mftf 和 ip_off 决 定 ipintr 是 否 应 该 重 装 。 图 1!0-12 摘 述 了 不 同 的 情况 及 相应 的 动 
作 ， 其 中 fp 指向 的 是 系统 以 前 为 该 数据 报 接收 的 分 片 表 。 许 多 工作 是 由 ip_reass 做 的 。 
309-322 如 果 ip_reass 通 过 把 当前 分 片 与 以 前 收 到 的 分 片 组 合 在 一 起 ， 能 重 装 成 一 个 完 
整 的 数据 报 ， 它 就 返回 指向 该 重 装 好 的 数据 报 的 指针 。 如 果 没 有 重 装 好 ， 则 ip_reass 保 存 
该 分 片 ，ipintr 跳 到 next 去 处 理 下 一 个 分 片 (图 8-12)。 


r 
0 了 Ww 


DB SOR EUR 
丢弃 前 面 的 分 片 
新 数据 报 的 分 片 用 这 个 分 片 初始 化 新 的 分 片 表 
不 完整 新 数据 报 的 分 片 插入 到 出 有 的 分 片 表 中 ， 尝 试 重 装 
新 数据 报 的 未 尾 分 片 初始 化 新 的 分 片 表 
不 完整 新 数据 报 的 末尾 分 片 | 插入 到 己 有 的 分 片 表 中 ， 尝 试 重 装 





图 10-12 ipintr 和 ip_reass 中 的 IP 分 片 处 理 
323-324 当 到 达 一 个 完整 的 数据 报时 ， 就 选择 这 个 else 分 支 ， 并 按照 前 面 的 叙述 修改 
ip_hlen。 这 是 一 个 普通 的 流 ， 因 为 收 到 的 大 多 数 数据 报 都 不 是 分 片 。 
如 果 重 装 处 理 产 生 一 个 完整 的 数据 报 ，ipintr 就 把 这 个 完整 的 数据 报 上 传 给 合适 的 运输 
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层 协议 (图 8-15): 


(*inetsw[ip pbrotox[ip-»ip p]].pr input) m,hlen); 


10.6 


ip reass E ir 


ipintr 把 一 个 要 处 理 的 分 片 和 一 个 指针 传 给 ip_reass， 其 中 指针 指向 的 是 ipq 中 匹 
配 的 重 装 首部 。ip_reass 可 能 重 装 成 功 并 返回 一 个 完整 的 数据 报 ， 可 能 把 该 分 片 链 接 到 数 
据 报 的 重 装 链表 上 ， 等 待 其 他 分 片 到 达 后 重 装 。 每 个 重 装 链表 的 表 头 是 一 个 ipqg 结 构 ， 如 图 
10-13 所 示 。 


52 struct ipq ( ip-varh 
53 struct ipq *next, *prev; /* to other reass headers */ 
54 u_char ipq ttl; /* time for reass q to live */ 
55 u_char ipaq p; /* protocol of this fragment */ 
56 u short ipq id; /* sequence id for reassembly */ 
57 struct ipasfrag *ipq next, *ipq prev; 
58 /* to ip headers of fragments */ 
59 Struct in addr ipq src, ipq dst; 
60 ); 
ip var.h 





图 10-13 ipg 结 构 


52-60 ”用 来 标识 一 个 数据 报 分 片 的 四 个 字段 ，ip_id、ip_src、ip_dst 和 ip_p， 被 保 
存在 每 个 重 装 链表 表 头 的 1pq 结 均 中 。Net/3 用 next 和 prev 构 造 数 据 报 链表 ， 用 ipq_next 
和 ipq_prev 构 造 分 片 的 链表 。 

到 达 分 组 的 IP 首 部 在 被 放 在 重 装 链表 之 前 ， 首 先 被 转换 成 一 个 jpasfrag 结 构 ( 图 10-14)。 


- ip_var.h 
66 struct ipasfrag { 
67 #if BYTE_ORDER == LITTLE_ENDIAN 
68 u_char ip_hl:4, 
69 ip v:4; 
70 #endif 
71 #if BYTE ORDER == BIG ENDIAN 
72 u_char ip. .v:4, 
73 ip hl:4; 
74 #endif 
75 u_char ipf mff; /* XXX overlays ip.tos: use low bit 
76 * to avoid destroying tos; 
71 * copied from (ip off&IP MF) */ 
78 short ip len; 
79 u short ip id; 
80 short ip off; 
81 u char ip ttl; 
82 u_char ip p: 
83 u.short ip sum; 
84 struct  ipasfrag *ipf next; /* next fragment */ 
85 struct  ipasfrag *ipf.prev; /* previous fragment */ 
86 }; ip var.h 





图 10-14 ipasfrag 结 构 


66-86 ip_reass 在 一 个 由 ipf_next 和 ipf_prev 链 接 起 来 的 双向 循环 链表 上 ， 收 集 某 个 
数据 报 的 分 片 。 这 些 指针 覆盖 了 IP 首 部 的 源 地 址 和 目的 地 址 。ipf_mff 成 员 和 覆盖 ip 结 构 中 的 
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ip_tos。 其 他 成 员 是 相同 的 。 
图 10-15 显 示 了 分 片 首部 链表 (ipq) 和 分 片 (ijpasfrag) 之 间 的 关系 。 







ipq() 
ipq: next 
(F prev 
= 重 装 表 表 头 ; 
没有 分 片 链接 
到 这 个 结构 上 
ipd prev 








分 片 表 ， 按 分 片 偏 移 的 顺序 
ipasfrag() B ipasfrag() v 


收 到 的 某 个 数 
据 报 的 所 有 分 
Ed | 
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图 10-15 分 片 首部 链表 ipq 和 分 片 


图 10-15 的 左下 部 是 重 装 首部 的 链表 。 表 中 第 一 个 节点 是 全 局 ipq 结 构 ，ipq。 它 永远 不 
会 有 自己 的 相关 分 片 表 。ipq 表 是 一 个 双向 链表 ， 用 于 支持 快速 插入 和 删除 。next 和 prev 
指针 指向 前 一 个 和 后 一 个 ipg 结 构 ， 用 终止 结构 的 角 上 的 箭头 表示 。 

图 10-15 仍 然 没 有 显示 重 装 结构 的 所 有 复杂 性 。 重 装 代码 很 难 跟踪 ， 因 为 它 完全 依靠 把 指 
针 指向 底层 mbuf 上 的 三 个 不 同 的 结构 。 我 们 已 经 接触 过 这 个 技术 了 ， 例 如 ， 当 一 个 ip 结 构 禾 
盖 某 个 缓存 的 数据 部 分 时 。 

图 10-16 显 示 了 mbuf、ipq 结 构 、ipasfrag 结 构 和 ip 结构 之 间 的 关系 。 

图 10-16 中 含有 大 量 信息 : 

。 所 有 结构 都 放 在 一 个 mbuf 的 数据 区 内 。 

。i pq 链表 由 next 和 prev 链 接 起 来 的 ipqg 结 构 组 成 。 每 个 ipq 结 构 保 存 了 唯一 标识 一 个 

IP 数 据 报 的 四 个 字段 (图 10-16 中 的 阴影 部 分 )。 . 

。 当 作为 分 片 链表 的 头 访问 时 ， 每 个 ipqg 结 构 被 看 成 是 一 个 ipas frag 结 构 。 这 些 分 片 由 

ipf_next 和 ipf_prev 链 接 起 来 ， 分 别 覆 盖 了 ipas 结构 的 jpq_next 和 ipq_prev 成 员 。 

。 每 个 ipasfrag 结 构 都 覆盖 了 到 达 分 片 的 ip 结构 ， 与 分 片 一 起 到 达 的 数据 在 缓存 中 跟 在 

该 结构 之 后 。ipasfrag 结 构 的 阴影 部 分 的 成 员 的 含义 与 其 在 ip 结构 中 不 太 相 同 。 
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ipf.next|ip£f. 
hl 


图 10-16 可 通过 多 种 结构 访问 的 一 段 内 存 区 
图 10-15 显 示 了 这 些 重 装 结构 之 间 的 物理 连接 , 图 10-16 显 示 了 ip_reass 使 用 的 覆盖 技术 。 
图 10-17 从 逻辑 的 观点 说 明 重 装 结构 : 该 图 显示 了 三 个 数据 报 的 重 装 ， 以 及 ipq 链 表 和 
ipasfrag 结 构 之 间 的 关系 。 
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图 10-17 三 个 下 数据 报 的 重 装 


每 个 重 装 链表 的 表 头 包含 原始 数据 报 的 标识 符 、 协 议 、 源 和 目的 地 址 。 图 中 只 显示 了 
ip_id 字 段 。 分 片 表 通 过 偏 移 字段 排序 ， 如 果 MF 比 特 被 置 位 ， 则 用 MF 标志 分 片 ， 缺 少 的 分 
片 出 现在 阴影 里 。 每 个 分 片 内 的 数字 显示 了 该 分 片 的 开始 和 结束 字 节 相对 于 原始 数据 报 数据 
区 的 相对 偏 移 ， 而 不 是 相对 于 原始 数据 报 的 下 首部 。 

这 个 例子 是 用 来 说 明 三 个 没有 卫 选 项 的 UDP 数据 报 , 其 中 每 个 数据 报 都 有 1024 字 节 的 数据 。 
每 个 数据 报 的 全 长 是 1052(20+8+1024) 字 节 ， 正 好 适合 1500 字 节 以 太 网 MTU。 在 到 目的 主机 的 
途中 ， 这 些 数据 报 会 遇 到 一 个 SLIP 链 路 ， 该 链 路 上 的 路 由 器 对 数据 报 分 片 ， 使 其 大 小 适 于 放 
在 典型 的 296 字 节 的 SLIP MTU 中 。 每 个 数据 报 分 4 个 分 片 到 达 。 第 1 个 分 片 中 包含 一 个 标准 的 
20 字 节 IP 首 部 ，8 字 节 UDP 首 部 和 264 字 节 数 据 。 第 2 个 和 第 3 个 分 片 中 包含 一 个 20 字 节 卫 首部 和 
272 字 节 数 据 。 最 后 一 个 分 片 中 有 一 个 20 字 节 首 部 和 216 字 节 数 据 (1032=272 x 3+216)。 

在 图 10-17 中 ， 数 据 报 5 缺少 一 个 包含 272~543 字 节 的 分 片 。 数 据 报 6 缺少 第 一 个 分 片 ， 
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0~271 字 节 ， 以 及 最 后 一 个 从 偏 移 816 开 始 的 分 片 。 数 据 报 7 缺少 前 三 个 分 片 ，0~815。 
图 10-18 列 出 了 ip_reass。 前 面 讲 到 ， 当 目的 地 是 本 主机 的 某 个 IP 分 片 到 达 时 ， 在 处 理 
完 所 有 选项 后 ，ipintr 会 调用 ip_reass。 


337 j* ip input.c 
338 * Take incoming datagram fragment and try to 
339 * reassemble it into whole datagram. If a chain for 
340 * reassembly of this datagram already exists, then it 
341 * is given as fp; otherwise have to make a chain. 
342  */ 
343 struct ip * 
344 ip reass!ip, fp) 
345 struct ipasfrag *ip; 
346 struct ipq *fp; 
347 ( 
348 struct mbuf *m = dtom(ip); 
349 struct ipasfrag *q; 
350 struct mbuf *t; 
351 int hlen - ip-»ip hl «« 2; 
352 int i, next; 
353 /* 
354 * Presence of header sizes in mbufs 
355 * would confuse code below. 
356 */ 
357 m-»m data += hlen; 
358 m-»m len -- hlen; 
/* reassembly còde */ 
465 dropfrag: 
466 ipstat.ips. fragdropped++; 
467 m freem(í(m); 
468 return (0); 
469 ) "n 
ip input.c 


图 10-18 Bip reass: 数据 报 重 装 


343-358 当 调用 ip_reass 时 ，ip 指 向 分 片 fp 或 者 指向 匹配 的 1pqg 结 构 或 者 为 空 。 

因为 重 装 只 涉及 每 个 分 片 的 数据 部 分 ， 所 以 ijp_reass 调 整 含有 该 分 片 的 mbuf 的 m_data 和 
m_len， 减 去 每 个 分 片 的 IP 首 部。 

465-469 在 重 装 过 程 中 ， 如 果 产 生 错 误 ， 该 函数 就 跳 到 dropfrag。dropfrag 增 加 
ips_fragdropped， 球 弃 恋 分 片 ， 并 返回 一 个 空 指针 。 

在 运输 层 丢 弃 分 片 通常 会 严重 降低 性 能 ， 因 为 必须 重 传 整个 数据 报 。TCP 谨 慎 地 避免 分 
片 ， 但 是 UDP 应 用 程序 必须 采取 步 又 以 避免 对 自己 分 片 。[Kent 和 Mogul 1987] 解释 了 为 什么 
应 该 避免 分 片 。 

所 有 IP 实 现 必须 能 够 重 装 最 多 576 字 节 的 数据 报 。 没 有 通用 的 方法 来 确定 远程 主机 能 重 装 
的 最 大 数据 报 的 大 小 。 我 们 将 在 27.5 节 中 看 到 TCP 提 供 了 一 个 机 制 ， 可 以 确定 远程 主机 所 能 处 
理 的 最 大 数据 报 的 大 小 。UDP 没 有 这 样 的 机 制 ， 所 以 许多 基于 UDP 的 协议 (例如 ，RIP、TFTP、 
BOOTP、SNMP 和 DNS)， 都 限制 在 576 字 节 左 右 。 

我 们 将 分 7 个 部 分 显示 重 装 代码 ， 从 图 10-19 开 始 。 
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359 7 Ip input.c 
360 * If first fragment to arrive, create a reassembly queue. 
361 */ 
362 if (fp == 0) ( 
363 if ((t -m get(M DONTWAIT, MT FTABLE)) == NULL) 
364 goto dropfrag; 
365 fp - mtod(t, struct ipq *); 
366 insque(fp, &ipq); 
367 fp-»-ipq ttl = IPFRAGTTL; 
368 fp-»ipq p = ip-»ip.p; 
369 fp-»ipq id = ip-»ip id; 
370 fp-»ipq next = fp-»ipq prev = (struct ipasfrag *) fp; 
371 fp-»ipq src = ((struct ip *) ip)-»ip. src; 
372 fp-»ipq dst = ((struct ip *) ip)-»ip dst; 
373 q = (struct ipasfrag *) fp; 
374 goto insert; 
375 } nol 
ip. input.c 
图 10-19 A% ip reass: 创建 重 装 表 
|. 创建 重 装 表 


359-366 当 fp 为 空 时 ，ip_reass 用 新 的 数据 报 的 第 一 个 分 片 创建 一 个 重 装 表 。 它 分 配 一 
个 mbuf 来 存放 新 表 的 头 (一 个 ijpq 结 构 )， 并 调用 insque， 把 该 结构 插入 到 重 装 表 的 链表 中 。 
图 10-20 列 出 了 操作 数据 报 和 分 片 链表 的 函数 。 
NetU3 的 386 版 本 是 在 machdep.c 文 件 中 定义 insque 和 remque 函 数 的 。 每 台 机 器 都 
有 自己 的 文件 ， 在 其 中 定义 核心 函数 ， 通 常 是 为 提高 性 能 。 该 文件 也 包括 与 机 器 体 
系 结构 有 关 的 函数 ， 包 括 中 断 处 理 支持 、CPU 和 设备 配置 以 及 内 存 管 理 函 数 。 
insque 和 remque 的 存在 主要 是 为 了 维护 内 核 执行 队列 。Net3 可 把 它们 用 于 数 
据 报 重 装 链表 ， 因 为 链表 具有 下 一 个 和 前 一 个 两 个 指针 ， 分 别 作 为 各 自 节点 结构 的 
前 两 个 成 员 。 对 任何 类 型 结构 的 链表 ， 这 些 函 数 同样 可 以 用 ， 尽 管 编译 器 可 能 会 发 
出 一 些 和 警告 。 这 也 是 另 一 个 通过 两 个 不 同 结构 访问 内 存 的 例子 。 
在 所 有 内 核 结构 里 ， 下 一 个 指针 通常 位 于 前 一 个 指针 的 前 面 (例如 ， 图 10-14)。 
这 是 因为 nsque 和 remque 最 早 是 在 VAX 上 用 insque 和 remque 硬 件 指令 实现 的 ， 
这 些 指 令 要 求 前 向 和 后 向 指针 具有 这 种 顺序 。 
分 片 表 不 是 用 ipasfrag 结 构 的 前 两 个 成 员 链 接 起 来 的 (图 10-14)， 所 以 Net/3 调 
用 ip_deq 和 ip_enq 而 不 是 insque 和 remque。 


insque 紫 接 在 prey 后 面 插 人 moae 


void insque(void *node, void* prev); 


Remque | 把 node 从 表 中 移 走 


void remque (void *node); 
ip.enq | 紧 接 在 分 片 prev 后 面 插入 分 片 p 

void ip enq(struct ipasfrag *p, Struct ipasfrag * prev); 
ip.deq | 移 走 分 片 p 


void ip deq(struct ipasfrag *p); 


图 10-20 ip_reass 采 用 的 队列 函数 
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2. 重 装 超时 
367 RFC 1122 要 求 有 生命 期 字段 (ipq_tt1)， 并 限制 Net/3 等 待 分 片 以 完成 一 个 数据 报 的 时 
间 。 这 与 耳 首部 的 TTL 字 段 是 不 同 的 ， 王 首部 的 TTL 字 段 是 为 了 限制 分 组 在 互联 网 中 循环 的 时 
间 。 重 用 IP 首 部 的 TTL 字 段 作为 重 装 超时 的 原因 在 于 ， 一 旦 分 片 到 达 它 的 最 终 目 的 地 ， 就 不 
再 需要 首部 TTL。 - 

在 NeV3 中 ， 重 装 超时 的 初始 值 设 为 60 (ITPFRAGTTL)。 因 为 每 次 内 核 调用 ip_sLowtimo 
时 ，ipq_tt1 就 减 去 !， 而 内 核 每 500 ms 调用 ip_slowtimo 一 次 。 如 果 系 统 在 接收 到 数据 报 
的 任 一 分 片 30 秒 后 ， 还 没有 组 装 好 一 个 完整 的 IP 数 据 报 ， 那 么 系统 就 丢弃 该 忆 重 装 链 表 。 重 
装 定时 器 在 链表 被 创建 后 的 第 一 次 调用 ip_slowtimo 时 开始 计时 。 

RFC 1122 推 荐 重 装 时 间 在 60~120 秒 内 ， 并 且 当 收 到 数据 报 的 第 一 个 分 片 且 定 时 器 超时 时 ， 
向 源 主机 发 出 一 个 ICMP 超 时 差错 报 文 。 重 装 后 ， 总 是 丢弃 其 他 分 片 的 首部 和 选项 ， 并 且 在 
ICMP 差 错 报 文中 必须 包含 出 错 数据 报 的 前 64 bit( 或 者 ， 如 果 该 数据 报 短 于 8 字 节 ， 就 可 以 少 一 
些 )。 所 以 ， 如 果 内 核 还 没有 接收 到 分 片 0， 它 就 不 能 发 ICMP 报 文 。 

Net/3 的 定时 器 要 短 一 些 ， 并 且 当 丢弃 分 片 时 ，Net/3 不 发 送 ICMP 报 文 。 要 求 返 

回 数据 报 的 前 64 bit 保 证 含有 运输 层 首部 的 前 详 ， 这 样 就 可 以 把 差错 报 文 返回 给 发 生 

错误 的 应 用 程序 。 注 意 ， 因 为 这 个 原因 ，TCP 和 UDP 有 意 把 它们 的 端口 号 放 在 首部 的 

前 8 个 字 节 。 

3. 数据 报 标识 符 
368-375 ip_reass 在 分 配给 该 数据 报 的 jpq 结 构 中 保存 jp_p、ip_id、ip_src 和 
ip_Gst， 让 ipq_next 和 ipq_prev 指 针 指向 该 jpq 结 构 ( 也 就 是 说 ， 它 用 一 个 节点 构造 一 个 
循环 链表 )， 让 q 指 向 这 个 结构 ， 并 跳 到 insert( 图 10-25)， 把 第 一 个 分 片 1b 搬 入 到 新 的 重 装 
表 中 去 。 : 
ip_reass 的 下 一 个 部 分 (图 10-21) 是 当 fp 不 空 ， 并 已 当前 表 中 为 新 的 分 片 找到 正确 位 置 
后 执行 的 。 


376 7 ip input.c 
377 * Find a fragment which begins after this one does. 
378 */ 
379 for (q = fp-»ipq next; q != (struct ipasfrag *) fp; q = q-»ipf next) 
380 if (q->ip_off > ip-»ip off) 
381 break; 2. 

lp. input.c 


图 10-21 函数 ip_reass: 在 重 装 链表 中 找 位 置 


376-381 ”因为 fp 不 空 ， 所 以 for 循 环 搜索 数据 报 的 分 片 链表 ， 找 到 一 个 偏 移 大 于 ip_off 
的 分 片 。 

在 目的 主机 上 ， 分 片 包含 的 字 节 范围 可 能 会 相互 覆盖 。 发 生 这 种 情况 的 原因 是 ， 当 一 个 
运输 层 协议 重 传 某 个 数据 报时 ， 采 用 与 原来 数据 报 不 同 的 路 由 ; 而 且 ， 分 片 的 模式 也 可 能 不 
同 ， 这 就 导致 在 目的 主机 上 的 相互 覆盖 。 传 输 协议 必须 能 强制 IP 使 用 原来 的 ID 字 段 ， 确 保 目 
的 主机 识别 出 该 数据 报 是 重 传 的 。 

Net/3 并 不 为 运输 层 协议 提供 机 制 保证 在 重 传 的 数据 报 中 重用 IP ID 字段 。 在 准备 
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新 数据 报时 ，ip_output 通 过 增加 全 局 整数 1p_id 来 赋 一 个 新 值 (图 8-22)。 尽 管 如 

此 ，Net/3 系 统 也 能 从 让 运输 层 用 相同 ID 字段 重 传 IP 数 据 报 的 系统 上 接收 重 本 的 分 片 。 

图 10-22 说 明 分 片 可 能 会 以 不 同 的 方式 与 已 经 到 达 的 分 片 重合。 分 片 是 按照 它们 到 达 目 的 
主机 的 顺序 编号 的 。 重 装 的 分 片 在 图 10-22 底 部 显示 ， 分 片 的 阴影 部 分 是 被 丢弃 的 多 余 字 节 

在 下 面 的 讨论 中 ， 早 到 (earlien) 分 片 是 指 先前 到 达 主 机 的 分 片 。 


分 片 1 分 片 2 分 片 3 分 片 4 


L] Ci a eoo 
分 上 ME 分 片 7 | 分 片 6 


je— 重组 装 的 数据 报 ”一 一 一 一 一 一 一 一 一 | 
图 10-22 可 能 会 在 目的 主机 重 站 的 分 片 的 字 节 范围 
图 10-23 中 代码 截断 或 丢弃 到 达 的 分 片 。 
382-396 ip_reass 把 新 片 中 与 早 到 分 片 末尾 重 登 的 字 节 丢弃 ， 截 断 重复 的 部 分 (图 10-22 中 分 
片 5 的 前 部 )， 或 者 ， 如 果 新 分 片 的 所 有 字 节 已 经 在 早先 的 分 片 中 (分 片 4) 出 现 ， 就 丢弃 整个 新 
分 片 (分 片 6)。 








382 7^ ip input.c 
383 * If there is a preceding fragment, it may provide some of 
384 * our data already. If so, drop the data from the incoming 
385 * fragment. If it provides all of our data, drop us. 
386 */ 
387 if (q-»ipf prev !- (struct ipasfrag *) fp) ( 
388 i = q-»ipf prev-»ip off + q-»ipf prev-»ip len - ip-»ip off; 
389 if (i > 0) { 
390 if (i >= ip-»ip len) 
391 goto dropfrag; 
392 m adj(dtom(ip), i); 
393 ip-»ip off += i; 
394 ip-»ip len -- i; 
395 ) 
396 ) noi 
ip input.c 


图 10-23 函数 ip_reass: 截断 到 达 分 组 


图 10-24 中 的 代码 截断 或 丢弃 已 有 的 分 片 。 
397-412 ”如 果 当 前 分 片 部 分 地 与 早 到 分 片 的 前 端 部 分 重 个， 就 把 早 到 分 片 中 重复 的 数据 截 
掉 ( 图 10-22 中 分 片 2 的 前 部 )。 丢 弃 所 有 与 当前 分 片 完全 重 登 的 早 到 分 片 (分 片 3)。 

图 10-25 中 ， 到 达 分 片 被 插 人 到 重 装 链表 。 

413-426 在 截断 后 ，ip_enq 把 该 分 片 插入 链表 ， 并 扫描 整个 链表 ， 确 定 是 否 所 有 分 片 全 
部 到 达 。 如 果 还 缺少 分 片 ， 或 链表 最 后 一 个 分 片 的 ipf_mff 被 置 位 ，ip_reass 就 返回 0， 并 
等 待 更 多 的 分 片 。 

当 目 前 的 分 片 完成 一 个 数据 报 后 ， 整 个 链表 被 图 10-26 所 示 的 代码 转换 成 一 个 mbuf 链 。 
427-440 ”如 果 某 个 数据 报 的 所 有 分 片 都 被 接收 下 来 ，whi1le 循 环 用 m_cat 把 分 片 重新 构造 
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成 数据 报 。 
397 /* ip input.c 
398 * While we overlap succeeding fragments trim them or, 
399 * if they are completely covered, dequeue them. 
400 */ 
401 while (q !-(struct ipasfrag *) fp && ip-»ip off«ip-»ip len > q-»ip off)( 
402 i = (ip-»ip off + ip-»ip len) - q-»ip. off; 
403 if (i < q-»ip len) ( 
404 q-»ip.len -= i; 
405 q-»ip off += i: 
406 m adj(dtom(q), i); 
407 break; 
408 ) 
409 q = q-»ipf next; 
410 m freem(dtom(q-»ipf prev)); 
411 ip deq(q-»ipf prev); ` 
412 } "na 
ip input.c 
图 10-24 函数 ijp_reass: 截断 已 有 分 组 
413 insert: Ip input.c 
414 /* 
415 * Stick new fragment in its place; 
416 * check for complete reassembly. 
417 */ 
418 ip enq(ip, q-»ipf prev); 
419 next - 0; 
420 for (qd = fp-»ipq next; q !- (struct ipasfrag *) fp; q = q-»ipf.next) ( 
421 if (q-»ip off !- next) 
422 return (0); 
423 next += q-»ip len; 
424 ) 
425 if (q-»ipf prev-»ipf mff & 1) 
426 return (0); 2. 
ip input.c 
图 10-25 函数 ijp_reass: 插入 分 组 
ip_input.c 
427 /* 
428 * Reassembly is complete; concatenate fragments. 
429 */ 
430 q = fp-»ipq next; 
431 m = dtom(q); 
432 t = m-»m next; 
433 m-»m next = 0; 
434 m cat(m, t); 
435 q = q-»ipf next; 
436 while (q l= (struct ipasfrag *) fp) ( 
437 t = dtom(q); 
438 q - q-»ipf next; 
439 m cat (m, t); 
440 ) "n 
tp input.c 





图 10-26 函数 ip_reass: 重 装 数据 报 
图 10-27 显 示 了 一 个 有 三 个 分 片 的 数据 报 的 mbuf 和 ipq 结 构 之 间 的 关系 。 


Ar 
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图 10-27 m_cat 重 装 缓存 内 的 分 片 


图 中 最 暗 的 区 域 是 分 组 的 数据 部 分 ， 稍 淡 的 阴影 部 分 是 mbuf 中 未 用 的 部 分 。 有 三 个 分 片 ， 
每 个 分 片 都 被 存放 在 一 个 有 两 个 mbuf 的 链 上 : 一 个 分 组 首部 和 一 个 答 。 每 个 分 片 的 第 一 个 缓 
存 上 的 m_data 指 针 指 向 分 组 数据 ， 而 不 是 分 组 的 首部 。 因 此 ， 由 m_cat 构 造 的 缓存 链 只 包 
含 分 片 的 数据 部 分 。 

当 一 个 分 片 含有 多 于 208 字 节 的 数据 时 ， 情 况 通常 是 这 样 的 (2.6 节 )。 缓 存 的 “frag” 部 分 是 
分 片 的 IP 首 部 。 由 于 图 10-18 中 的 代码 ， 各 缓存 链 第 一 个 缓存 的 m_data 指 针 指 向 “opts” 之 后 。 

图 10-28 显 示 了 用 所 有 分 片 的 缓存 重 装 的 数据 报 。 注 意 ， 分 片 2 和 3 的 IP 部 分 和 选项 不 在 重 
装 的 数据 报 里 。 

第 一 个 分 片 的 首部 仍然 被 用 作 ipasfrag 结 构 。 它 被 图 10-29 中 的 代码 恢复 成 一 个 有 效 的 
IP 数 据 报 首部 。 

4. 重建 数据 报 首 部 
441-456 ip_reass 把 ip 指 向 链表 的 第 一 个 分 片 ， 将 ipasfrag 结 构 恢 复 成 ip 结 构 : 把 数 
据 报 长 度 恢复 成 ijp_1l1en， 源 站 地 址 恢复 成 ijp_src， 目 的 地 址 恢复 成 ip_dst; 并 把 
ipf_mff 的 低位 清 零 ( 从 图 10-14 可 以 知道 ，ipasfrag 结 构 的 ipf_mft 覆 盖 了 ip 结构 的 
ipf tos). 

ip_reass 用 remque 把 整个 分 组 从 重 装 链 表 中 移 走 ， 丢 弃 链 表 头 1pq 结 构 ， 调 整 第 一 个 
人 有 len 和 m_aata， 将 前 面 被 隐藏 起 来 的 第 一 个 分 片 的 首部 和 选项 包含 进来 。 

5. 计算 分 组 长 度 
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图 10-28 重 装 的 数据 报 


141 7* ip input.c 

442 *. Create header for new ip packet by 

443 * modifying header of first packet; 

444 * dequeue and discard fragment reassembly header. 

445 * Make header visible. 

446 */ 

447 ip = fp-»ipq next; 

448 ip-»ip len = next; 

449 ip-»ipf mff &- ^1; 

450 ((struct ip *) ip)-»ip src = fp-»ipq src; 

451 ((struct ip *) ip)-»ip.dst = fp-»ipq dst; 

452 remque (fp); 

453 (void) m free(dtom(fp)); 

454 m - dtom(ip); 

455 m-»m len += (ip-»ip. hl << 2); 

456 m-»m data -= (ip-»-ip hl << 2); 

457 /* some debugging cruft by sklower, below, will go away soon */ 

458 if (m-»m flags & M PKTHDR) { /* XXX this should be done elsewhere */ 

459 int plen = 0; 

460 for (t = m; m; m = m-»m next) 

461 plen «- m-»m len; 

462 t-»m pkthdr.len - plen; 

463 B 

464 return ((struct ip *) ip); o 
ip_input.c 


图 10-29 函数 ijp_reass: 数据 报 重 装 


457-464 此 处 的 代码 总 被 执行 ， 因 为 数据 报 的 第 一 个 缓存 总 是 一 个 分 组 首部 。 for 循 环 计 
算 缓 存 链 中 数据 的 字 节 数 ， 并 把 值 保存 在 n_pkthdr .1en 中 。 

在 选项 类 型 字段 中 ，copied 比 特 的 意义 现在 应 该 很 明白 了 。 因 为 目的 主机 只 保留 那些 出 现 
在 第 一 个 分 片 中 的 选项 ， 而 且 只 有 那些 在 分 组 去 往 目 的 主机 的 途中 控制 分 组 处 理 的 选项 才 被 
复制 下 来 。 不 复制 那些 在 传送 过 程 中 收集 信息 的 选项 ， 因 为 当 分 组 在 目的 主机 上 被 重 装 时 ， 
所 有 收集 的 信息 都 被 丢弃 了 。 
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10.7 ip slowtimoP X 


如 7.4 节 所 述 ，Net/3 的 各 项 协议 可 能 指定 每 500 ms 调用 一 个 函数 。 对 IP 而 言 ， 这 个 函数 是 
ip_slowtimo， 如 图 10-30 所 示 ， 为 重 装 链表 上 的 分 片 计时 。 





515 void Ip-inpulc 

516 ip slowtimo(void) 

517 ( 

518 struct ipq *fp; 

519 int S - Splnet(); 

520 fp - ipq.next; 

521 if (fp == 0) { 

522 Splx(s); 

523 return; 

524 } 

525 while (fp != &ipq) ( 

526 --fp-»ipq ttl; 

527 fp = fp-»next; 

528 if (fp-»prev-»ipq ttl == 0} ( 

529 ipstat.ips fragtimeout-es-; 

530 ip freef(fp-»prev); 

531 ) 

532 ) 

533 Ssplx(s): 

534 } "n 
Ip input.c 


图 10-30 ip_slowtimo 国 数 


515-534 ， ip_sliowtimo 遍 历 部 分 数据 报 的 链表 ， 减 少 重 装 TTL 字 段 。 当 该 字段 减 为 0 时 ， 
就 调用 ip_freef， 把 与 该 数据 报 相 关 的 分 片 都 丢弃 。 在 sp1lnet 处 运行 ip_slowtimo， 避 
免 到 达 分 组 修改 链表 。 

ip_freef 显 示 如 图 10-31。 
470-486 ip_freef 移 走 并 释放 链表 上 fp 指向 的 各 分 片 ， 然 后 释放 链表 本 身 。 


474 void p-mpure 
475 ip freef(fp) 
476 struct ipq *fp; 
477 ( 
478 struct ipasfrag *q, *p: 
479 for (q = fp-»ipq next; q !- (struct ipasfrag *) fp; q = p) ( 
480 p = q-»ipf next; 
481 ip.deq(q): 
482 m freem(dtom(q)); 
483 } 
484 remque (fp); 
485 (void) m free(dtom(fp)); 
486 ) i 
ip input.c 


图 10-31 ip_freef 函 数 


ip drainifiJÁ 


在 图 7-14 中 ， 我 们 讲 到 IP 把 ip_drain 定 义 成 一 个 当 内 核 需 要 更 多 内 存 时 才 调 用 的 函数 。 
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这 种 情况 通常 发 生 在 我 们 讨论 过 的 (图 2-13) 分 配 缓 存 时 。ip_drain 显 示 如 图 10-32。 
838 voip input.c 
539 ip drain() 
540 ( 


541 while (ipq.next != &ipq) ( 

542 ipstat.ips fragdropped-«s; 

543 ip freef(ipq.next); 

544 ) 

545 } 

ip input.c 
图 10-32 ip_aqrain 国 数 

538-545  IP 释 放 内 存 的 最 简单 办 法 就 是 丢弃 重 装 链表 上 的 所 有 IP 分 片 。 对 属于 某 个 TCP 报 
文 段 的 分 片 ，TCP 最 终 会 重 传 该 数据 。 属 于 UDP 数 据 报 的 IP 分 片 就 丢失 了 ， 基 于 UDP 的 协议 


必须 在 应 用 程序 层 处 理 这 种 情况 ， 
10.8 小 结 


本 章 展示 了 当 一 个 外 出 的 数据 报 过 大 而 不 适 于 在 选 定 网 络 上 传送 时 ，ip_output 如 何 对 
数据 报 分 片 。 由 于 分 片 在 向 目的 地 传送 的 途中 可 能 会 被 继续 分 片 ， 也 有 可 能 走 不 同 的 路 径 ， 
所 以 只 有 目的 主机 才能 组 装 原来 的 数据 报 。 

ip_reass 接 收 到 达 分 片 ， 并 试图 重 装 数据 报 。 如 果 重 装 成 功 ， 就 把 数据 报 传 回 ipintr， 
然后 提交 给 恰当 的 运输 层 协 议 。 所 有 了 PP 实现 必须 能 够 重 装 最 多 576 字 节 的 数据 报 。NeV3 的 唯一 
限制 就 是 可 以 得 到 的 mbuf 的 个 数 。 如 果 在 一 段 合理 的 时 间 内 ， 没 有 接收 完 数据 报 的 所 有 分 片 ， 
ip_slowtimo 就 丢弃 不 完整 的 数据 报 。 
习题 

10.1 修改 ip_slowtimo， 当 它 丢 弃 一 个 不 完整 数据 报时 (图 11-1)， 发 出 一 个 ICMP 超 时 

差错 报 文 。 

10.2 在 分 片 的 数据 报 中 ， 各 分 片 记录 的 路 由 可 能 互 不 相同 。 在 目的 主机 上 重 装 某 个 数据 

报时 ， 返 回 给 运输 层 的 哪 一 个 路 由 ? 

10.3 夯 一 个 图 说 明 图 10-17 中 卫 为 7 的 分 片 的 ipg 结 构 所 涉及 的 mbuf 和 相关 的 分 片 链表 。 

10.4 [Auerbach 1994] 建议 在 对 数据 报 分 片 后 ， 应 该 首先 传送 最 后 的 分 片 。 如 果 接 收 系 

统 先 收 到 最 后 的 分 片 ， 它 就 可 以 利用 偏 移 值 为 数据 报 分 配 一 个 大 小 合适 的 缓冲 区 。 
请 修改 ip_output， 首 先 发 送 最 后 的 分 片 。 
[Auerbach 1994] 注意 到 某 些 商用 TCP/IP 实 现 如 果 先 收 到 最 后 的 分 片 ， 就 会 
uA d 
10.5 用 图 8-5 中 的 统计 回答 下 面 的 问题 。 什 么 是 每 个 重 装 的 数据 报 的 平均 分 片 数 ? 当 一 
个 外 出 的 数据 报 被 分 片 时 ， 创 建 的 平均 分 片 数 是 多 少 ? 
10.6 如 果 ip_off 的 保留 比特 被 置 位 ， 分 组 会 发 生 什么 情况 ? 
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11.1 引言 


ICMP 在 IP 系 统 间 传 递 差 错 和 管理 报 文 ， 是 任何 IP 实 现 必需 和 要 求 的 组 成 部 分 。ICMP 的 规 
范 见 RFC 792 {Postel 1981b]. RFC 950 [Mogul 和 Postel 1985] 和 RFC 1256 [Deering 1991a] 定 义 
了 更 多 的 ICMP 报 文 类 型 。RFC 792 [Braden 1989a] 提 供 了 重要 的 ICMP 细 节 。 

ICMP 有 自己 的 传输 协议 号 (1)， 人 允许 ICMP 报 文 在 IP 数 据 报 内 携带 。 应 用 程序 可 以 直接 从 
第 32 章 讨论 的 原始 耳 接口 发 送 或 接收 ICMP 报 文 。 

我 们 可 把 ICMP 报 文 分 成 两 类 : 差错 和 查询 。 查 询 报 文 是 用 一 对 请 求 和 回答 定义 的 。 
ICMP 差 错 报 文通 常 包含 了 引起 错误 的 IP 数 据 报 的 第 一 个 分 片 的 耻 首 部 (和 选项 )， 加 上 该 分 片 
数据 部 分 的 前 8 个 字 节 。 标 准 假 定 这 8 个 字 节 包含 了 该 分 组 运输 层 首部 的 所 有 分 用 信息 ， 这 样 
运输 层 协 议 可 以 向 正确 的 进程 提交 ICMP 差 错 报 文 。 

TCP 和 UDP 端口 号 在 它们 首部 的 前 8 个 字 节 内 出 现 。 

图 11-1 显 示 了 所 有 目前 定义 的 ICMP 报 文 。 双 线 上 面 的 是 ICMP 请 求 和 回答 报 文 ; 双 线 下 面 
的 是 ICMP 差 错 报 文 。 


type 和 code 


ICMP ECHO [n] 8f. io 
ICMP ECHOREPLY 问好 回答 


ICMP TS3AMP 
ICMP TSTAMPREPLY 






























ICMP MASKREQ 


ICMP MASKREPLY 
信息 请 求 (过 时 的 ) 


ICMP_IREQ 
ICMP_IREQREPLY 信息 回答 (过 时 的 ) 
ICMP_ROUTERADVERT 路 由 器 通告 

ICMP ROUTESOLICIT 路 由 器 请 求 


有 更 好 的 路 由 


ICMP REDIRECT 
































ICMP REDIRECT NET 网 络 有 更 好 的 路 由 PRC_REDIRECT_HOST 
ICMP REDIRECT HOST 主机 有 更 好 的 路 由 PRC_REDIRECT_HOST 
ICMP REDIRECT TOSNET TOS 和 网 络 有 更 好 的 路 由 PRC, REDIRECT HOST 
ICMP REDIRECT TOSHOST TOS 和 主机 有 更 好 的 路 由 PRC_REDIRECT_HOST 


其 他 

ICMP_UNREACH 
ICMP UNREACH NET 
ICMP UNREACH HOST 


不 识别 码 
目的 主机 不 可 达 
网 络 不 可 达 
主机 不 可 达 
















PRC UNREACH, NET 
PRC, UNREACH, HOST 








图 11-1 ICMP 报 文 类 型 和 代码 
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typefilcode 


ICMP UNREACH PROTOCOL 
ICMP UNREACH PORT 















日 的 主机 上 协议 不 能 用 
日 的 主机 上 端 11 没 有 被 激活 


PRC UNREACH PROTOCOL 






PRC, UNREACH, PORT 




























































ICMP UNREACH SRCFAIL 源 路 由 失败 PRC. UNREACH, SRCFAIL ^ 
ICMP, UNREACH, NEEDFRAG 需要 分 片 并 设置 DF 比特 PRC_MSGSIZE 
ICMP_UNREACH_NET_UNKNOWN 日 的 网 络 未 知 PRC_UNREACH_NET 

ICMP UNREACH HOST UNKNOWN 日 的 主机 未 知 PRC, UNREACH, HOST 
ICMP. UNREACH, ISOLATED 源 主 机 被 隔离 PRC_UNREACH_HOST 
ICMP UNREACH NET PROHIB ME BR EES FIR uf | PRC UNREACH, NET 

ICMP UNREACH HOST PROHIB MEM LASAI | PRC UNREACH, HOST 












对 服务 类 型 ， 网 络 不 可 达 
对 服务 类 型 ， 主 机 不 可 达 


PRC_UNREACH_NET 
PRC UNREACH HOST 


ICMP UNREACH TOSNET 
ICMP UNREACH TOSHOST 





























13 HEME HA kM f 
14 主机 优先 违规 
15 事实 上 优先 切断 








不 识别 码 
超时 

传送 过 程 中 IP 生 在 期 到 期 
重 装 生存 期 到 期 
不 识别 码 
IP 首 部 的 问题 


其 他 
ICMP TIMXCEED 
ICMP TTIMXCEED INTRANS 
ICMP TIMXCEED REASS 
其 他 


ICMP PRRAMPROB 














PRC, TIMXCEED INTRANS 
PRC. TIMXCEED, REASS 
































0 未 指明 首部 差错 PRC_ PARAMPROB 
ICMP_ PRRAMPROB_OPTABSENT 丢失 需要 的 选项 PRC_PARAMPROB 
无 效 字 节 的 字 告 偏 移 


其 他 


图 11-1 ( 续 ) 





图 11-1 和 图 11-2 中 含有 大 量 信息 : 

* PRC_ 栏 显示 了 Net3 处 理 的 与 协议 无 关 的 差错 码 (11.6 节 ) 和 ICMP 报 文 之 间 的 映射 。 对 请 
求 和 回答 ， 这 一 列 是 空 的。 因为 在 这 种 情况 下 不 会 产生 差错 。 如 果 对 一 个 ICMP 差 错 ， 
这 一 行为 空 ， 说 明 Net/3 不 识别 该 码 ， 并 自动 丢弃 该 差错 报 文 。 

*。 图 11-3 显 示 了 我 们 讨论 图 11-2 所 列 函 数 的 位 置 。 

。icmp_input 栏 是 icmp_input 为 每 个 ICMP 报 文 调用 的 函数 。 

。UDP 栏 是 为 UDP 插 日 处 理 ICMP 报 文 的 函数 。 

。TCP 栏 是 为 TCP 插 口 处 理 ICMP 报 文 的 函数 。 注 意 ， 是 tcp_quench 处 理 ICMP 源 站 抑制 
差错 ， 而 不 是 tcp_notify。 

* 如果 errno 栏 为 空 ， 内 核 不 向 进程 报告 ICMP 报 文 。 

。 表 的 最 后 一 行 显示 ， 在 用 于 接收 ICMP 报 文 的 进程 的 接收 点 上 ， 不 识别 的 ICMP 报 文 被 提 
交 给 原来 的 IP 协 议 。 

在 Net/3 中 ，ICMP 是 作为 IP 之 上 的 一 个 运输 层 协议 实现 的 ， 它 不 产生 差错 或 请 求 ， 它 代表 
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其 他 协议 格式 化 并 发 送 报 文 。ICMP 传 递 到 达 的 差错 ， 并 向 适当 的 传输 协议 或 等 待 ICMP 报 文 
的 进程 发 出 问答 。 另 一 方面 ，ICMP 用 一 个 合适 的 ICMP 回 答 响应 大 多 数 ICMP 请 求 。 图 11-4 对 
此 作 了 总 结 。 


CE 和 ce | pinou | 
ICMP ECHOREPLY rip input 
ICMP TSTAMPREPLY rip input 
ICMP MASKREPLY rip input 


























ICMP IREQ rip input 
ICMP IREQREPLY rip input 
ICMP ROUTERADVERT rip.input 
ICMP ROUTERSOLICIT rip input 


ICMP REDIRECT 
































ICMP REDIRECT NET pfctlinput in, rtchange | in rtchange 
ICMP REDIRECT HOST pfctlinput in rtchange in rtchange 
ICMP REDIRECT TOSNET pfctlinput in rtchange | in rtchange 
ICMP REDIRECT TOSHOST pfctlinput in rtchange | in rtchange 


rip input 


起 他 
ICMP UNREACH 


































































ICMP. UNREACH, NET pr ctlinput udp notify tcp notify EHOSTUNREACH 
ICMP UNREACH HOST pr ctlinput udp notify tcp notify EHOSTUNREACH 
ICMP UNREACH PROTOCOL pr. ctlinput udp notify tcp notify ECONNREFUSED 
ICMP UNREACH PORT pr ctlinput udp, notify tcp .notify ECONNREFUSED 
ICMP UNREACH SRCFAIL pr.ctlinput udp notify tcp notify EHOSTUNREACH 
ICMP UNREACH NEEDFRAG pr ctlinput udp notify tcp notify EMSGSIZE 

ICMP. UNREACH, NET. UNKNOWN pr.ctlinput udp notify tcp notify EHOSTUNREACH 
ICMP UNREACH, HOST UNKNOWN | pr ctlinput udp notify tcp notify EHOSTUNREACH 
ICMP UNREACH ISOLATED pr ctlinput udp notify tcp notify EHOSTUNREACH 
ICMP UNREACH NET PROHIB pr.ctlinput udp notify tcp notify EHOSTUNREACH 















ICMP UNREACH HOST PROHIB pr ctlinput udp notify tcp notify EHOSTUNREACH 


























EHOSTUNREACH 
EHOSTUNREACH 






tcp notify 
tcp notify 


udp notify 
udp „notify 


pr_ctlinput 
pr_ctlinput 
rip_input 


ICMP_UNREACH_TOSNET 
ICMP_UNREACH_TOSHOST 
13 





rip_input 
rip_input 
rip_input 





14 

15 

其 他 

ICMP TIMXCEED 
ICMP TIMXCEED INTRANS 
ICMP TIMXCEED REASS 

其 他 

ICMP PARAMPROB 

0 

ICMP PARAMPROB OPTABSENT 

































tcp notify 
tcp, notify 


udp notify 
udp notify 


pr.ctlinput 
pr ctlinput 
rip input 




























ENOPROTOOPT , 
ENOPROTOOPT 


tcp notify 
tcp notify 


udp notify 
udp. notify 


pr.ctlinput 
pr ctlinput 
rip input 


其 他 
ICMP SOURCEQUENCH pr ctlinput udp. notify | tcp qench | | 
LEE: | 


图 11-2 ICMP 报 文 类 型 和 代码 ( 续 ) 
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为 ICMP 生 成 问答 
更 新 IP 路 由 表 
向 所 有 协议 报告 差错 
向 与 桂 门 有 关 的 协议 报告 差错 
进程 不 识别 的 ICMP 报 文 
向 进程 报告 差错 或 忽略 
放 慢 输出 
向 进程 报告 差错 


11.1245 
图 22-34 
7.7 节 
7445 
32.55 
图 27-12 
图 27-13 
图 23-31 


icmp, reflect 
in rtchange 
pfctlinput 
pr ctlinput 













rip. input 
tcp notify 
tcp quench 








udp notify 


图 11-3 ICMP 和 输入 处 理 时 调用 的 函数 


ICMP 报 文 类 型 
向 ICMP 请 求生 成 pI 答 ”| 由 某 个 进程 生成 


传 给 原始 IP 由 内 核 生成 
传 给 传输 协议 和 原始 IP | 由 了 P 或 传输 协议 生成 
传 给 原始 IP 由 某 个 进程 生成 


图 11-4 ICMP 报 文 处 理 





11.2 代码 介绍 
图 11-5 的 两 个 文件 中 有 本 意 讨 论 的 ICMP 数 据 结构 、 统 计量 和 处 理 的 程序 。 


netinet/ip icmp.h ICMP 结 构 定义 
netinet/ip icmp.c ICMP 处 理 


图 11-5 本 章 定义 的 文件 





11.2.1 全 局 变量 
RIS T a 


— s (0 | &EICMPHERHRER AREE | 
icmpstat struct icmpstat | ICMP 统 计量 (图 11-7) 


图 11-6 本 章 介绍 的 全 局 变量 















112.2 统计 量 
统计 量 是 由 图 11-7 所 示 的 ijcmpstat 结 构 的 成 员 收 集 的 。 


icps_oldicmp 因为 数据 报 是 一 个 ICMP 报 文 而 丢弃 的 差错 数 
icps_oldshort 


因为 IP 数 据 报 大 短 而 丢弃 的 差错 数 
图 11-7 本 章 收集 的 统计 信息 
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由 于 无 效 码 而 丢弃 的 ICMP 报 文 数 
由 于 无 效 的 ICMP 体 而 丢弃 的 ICMP 报 文 数 

由 十 坏 的 IEMP 检 验 和 而 丢弃 的 ICMP 报 文 数 
由 于 ICMP 首 部 太 短 而 丢弃 的 报 文 数 
输出 计数 器 数组 ;每 种 ICMP 类 型 对 应 一 个 
icps inhist[] | 输入 计数 器 数组 ;每 种 ICMP 类 型 对 应 一 个 


icps_error icrmp_erzrozr 的 调用 ( 重 定向 除外 ) 数 
icps_reflect 内 核 反 映 的 ICMP 报 文 数 
图 11-7 (£3) 


在 分 析 程 序 时 ， 我 们 会 看 到 计数 器 是 递增 的 。 
图 11-8 显 示 的 是 执行 netstat -s 命 令 输出 的 统计 信息 的 例子 。 


netstat -s 输出 icmpstat 成 员 


84124 calls to icmp error icps, error 

0 errors not generated 'cuz old message was icmp | icps. oldicmp 

Output histogram: icps, outhist[] 
echo reply: 11770 ICMP ECHOREPLY 
destination unreachable: 84118 ICMP UNREACH 
time exceeded: 6 ICMP. TIMXCEED 

6 messages with bad code fields icps badcode 

0 messages « minimum length icps, badlen 

0 bad checksums icps, checksum 

143 messages with bad length icps. tooshort 

Input histogram: icps inhist[] 
echo reply: 793 ICMP, ECHOREPLY 
destination unreachable: 305869 ICMP UNREACH 
source quench: 621 ICMP. SOURCEQUENCH 
routing redirect: 103 ICMP REDIRECT 
echo: 11770 ICMP ECHO 
time exceeded: 25296 ICMP, TIMXCEED 

11770 message responses generated icps, reflect 











icps. badcode 













icps badlen 






icps. checksum 







icps. tooshort 
icps outhist[] 






















































图 11-8 ICMP 统 计 信息 示例 


11.2.3 SNMP 变 量 
图 11-9 显 示 了 SNMP ICMP 组 的 变量 与 Net/3 收 集 的 统计 量 之 间 的 关系 。 


i 7 |. LLL] 
收 到 的 ICMP 报 文 数 


icmpInErrors icps badcode + 
由 于 错误 丢弃 的 ICMP 报 文 数 


icps_badlen + 
icps_checksum + 
icps_tooshort 
icmpInDestUnreachs 
icmpInTimeExcds 
icmpInParmProbs 
icmpInSrcQuenchs 
icmpInRedirects 
icmpInEchos 















































icps inhist[] 计数 器 每 一 类 收 到 的 ICMP 报 文 数 


图 11-9 ICMP 组 内 的 简单 SNMP 变 量 
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icmplInEchoReps 
icmpInTimestarmps 
icmpInTimestampReps 
icmpInAddrMasks 
icmpInAddrMaskReps 


icmpOutMsgs 见 正文 一 
icmpOutErrors icps, oldicmp + ERO E AGRÍBICMPERTEA 
icps oldshort 于 一 个 错误 而 设 此 


icmpOutDestUnreachs 


icmpOutTimeExcds 

icmpOutParmProbs 

icmpOutSrcQuenchs 

icmpOutRedirects 

icmpOutEchos icps_outhist [] 计数 器 每 一 类 发 送 的 ICMP 报 文 数 
icmpOutEchoReps 

icmpOutTimestamps 

icmpOutTimestampReps 

icmpOutAddrMasks 

icmpOutAddrMaskReps 





图 11-9 (E$) 


icmpInMsgs 是 ijcps_inhist 数 组 和 icmpInErrors 中 的 计数 之 和 ，icmpOutMsgs 
是 icps_outist 数 组 和 icmpoutErrors 中 的 计数 之 和 。 


11.3 icmp 结 构 


NetU3 通 过 图 11-10 中 的 icmp 结 构 访问 某 个 ICMP 报 文 。 
42-45 icmp_type 标 识 特定 报 文 ，icmp_codqe 进 一 步 指定 该 报 文 (图 11-1 的 第 1 栏 )。 计 算 
icmpb_cksum 的 算法 与 卫 首 部 检验 和 相同 ， 保 护 整个 ICMP 报 文 ( 像 下 一 样 ， 不 仅仅 保护 首部 )。 
46-79 联合 icmp_hun( 首 部 联合 ) 和 icmp_dun( 数 据 联合 ) 按 照 icmp_type 和 icmp_code 
访问 多 种 ICMP 报 文 。 每 种 ICMP 报 文 都 使 用 icmp_hun; 只 有 一 部 分 报 文 用 icmp_dun。 没 
有 使 用 的 字段 必须 设置 为 0。 
80-86 我 们 已 经 看 到 ， 利 用 其 他 髓 套 的 结构 (例如 mbuf、1le_softc 和 ether_arp)， 
#define 宏 可 以 简化 对 结构 成 员 的 访问 。 

图 11-11 显 示 了 ICMP 报 文 的 整体 结构 ， 并 再 次 强调 ICMP 报 文 是 封装 在 IP 数 据 报 里 的 。 我 
们 将 在 分 析 程 序 时 ， 分 析 所 遇 报 文 的 特定 结构 。 


42 struct icmp { ip_icmp.h 
43 u_char icmp_type; /* type of message, see below */ 

44 u_char icmp. code; /* type sub code */ 

45 u short icmp cksum; /* ones complement cksum of struct */ 
46 union ( 

47 u char ih pptr; /* ICMP, PARAMPROB */ 

48 struct in_addr ih gwaddr; /* ICMP REDIRECT */ 

49 struct ih idseq ( 

50 n short icd id; 

51 n,short icd, seq; 

52 ) ih idseq:; 

53 int ih, void; 

54 /* ICMP UNREACH NEEDFRAG -- Path MTU Discovery (RFC1191) */ 
55 struct ih pmtu ( 


图 11-10 icmp 结 构 
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56 n short ipm void; 
57 n,.short ipm nextmtu; 
58 ) ih pmtu; 
59 ) icmp hun; 
60 4define icmp pptr icmp hun.ih pptr 
61 $define icmp gwaddr icmp hun.ih gwaddr 
62 #define icmp id icmp  hun.ih, idseq.icd id 
63 $define icmp seq icmp, hun.ih idseq.icd seq 
64 #define icmp void icmp hun.ih void 
65 #define icmp, pnvoid icmp bun.ih pmtu.ipm void 
66 #define icmp nextmtu icmp hun.ih pmtu.ipm nextmtu 
67 union { 
68 struct id ts ( " 
69 n time its otime; 
70 n time its rtime; 
71 n time its ttime; 
72 ) id ts; 
73 struct id ip ( 
74 struct ip idi, ip: 
75 /* options and then 64 bits of data */ 
76 ) id ip; 
77 u long id mask; 
78 char id data[1]1; 
79 ) icmp dun; 
80 #define icmp otime  icmp dun.id ts.its otime 
81 #define icmp rtime  icmp dun.id ts.its rtime 
82 #define icmp ttime  icmp dun.id ts.its ttime 
83 #define icmp ip icmp dun.id ip.idi ip 
84 #define icmp mask icmp dun.id mask 
85 #define icmp data icmp, dun.id, data 
86 ); "n 
ip icmp.h 
图 11-10 (£5) 
e ICMP 报 文 一 -一 一 
"E 
: 1 : o: 2%% 
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一 个 ICMP 报 文 (省 覆 icmp_) 


IP 首 部 


-一 








图 11-11 


11.4 ICMP 的 protosw 结 构 


inetsw[41( 图 11-13) 的 protosw 结 构 描述 了 ICMP， 并 支持 肉 核 和 进程 对 协议 的 访问 。 
图 11-12 显 示 了 该 结构 。 在 内 核 里 ，icmp_input 处 理 到 达 的 ICMP 报 文 ， 进 程 产生 的 外 出 
ICMP 报 文 由 rip_output 处 理 。 以 rip_ 开 头 的 三 个 函数 将 在 第 32 章 中 讨论 。 


inetsw[4] 


ICMP 提 供 原始 分 组 服务 
ICMP 是 Internet 域 的 一 部 分 


SOCK RAW 


&inetdomain 


pr type 
pr. domain 





图 11-12 ICMP 的 inetsw 项 
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pr protocol IPPROTO ICMP (1) 出 现在 IP 首 部 的 ip_p 字 段 中 
pr_flags PR ATOMIC!PR ADDR 插口 层 标志 ，ICMP 不 使 用 
pr_input icmp input ' 从 IP 层 接收 ICMP 报 文 
pr output rip output 将 ICMP 报 文 发 送 到 IP 层 
pr ctlinput 0 ICMP 不 使 用 
pr ctloutput rip ctloutput 响应 来 自 一 个 进程 的 管理 请 求 
pr usrreq rip usrreq 哆 应 来 自 一 个 进程 的 通信 请 求 
pr_init ICMP 不 使 用 
pr_fasttimo ICMP 不 使 用 
pr_slowtimo ICMP 不 使 用 
pr drain ICMP 不 使 用 
pr_sysctl ICMP 不 使 用 
图 11-12 ( 续 ) 
ip_protox{]: inetsw[]l: 
o oo 
143 1——— 
2 | 
3[ | 
4| | IMP. 
5| | 
| | 


255 
图 11-13 数值 为 1 的 ip_p 选 择 了 inetsw[4] 


11.5 WAA: icmp_input AH 


回想 起 ipintr 对 数据 报 进行 分 用 是 根据 下 首部 中 的 传输 协议 编号 ip_p。 对 于 ICMP 报 文 ， 
ip_p 是 1， 并 通过 ip_protox 选 择 inetsw[41]。 

当 一 个 ICMP 报 文 到 达 时 ， 了 下 
层 通过 inetsw[4]1 的 pr_input 
函数 ， 间 接 调用 icmp_input 
(图 10-11)。 

我 们 将 看 到 ， 在 icmp_ 
input 中 ， 每 一 个 ICMP 报 文 要 
被 处 理 3 次 : 被 icmP_input 






传输 协议 


ICMP 差 错 ICMP 差 错 应 答 和 未 知 报 文 


处 理 一 次 ; 被 与 ICMP 差 错 报 文 ME | 
中 的 IP 分 组 相关 联 的 传输 协议 AME J 
处 理 一 次 ; 被 记录 收 到 ICMP 报 (图 11-29) 


文 的 进程 处 理 一 次 。ICMP 输 入 
处 理 过 程 的 总 的 构成 情况 如 图 
11-14 所 示 。 图 11-14 ICMP 的 输入 处 理 过 程 
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我 们 将 在 以 下 5 市 (11.6 ~ 11.10) b i&£icmp input: (1) 验证 收 到 的 报 文 ; (Q2) ICMP 差 错 
报 文 ; (3) ICMP 请 求 报 文 ; (4) ICMP 重 定向 报 文 ; (5) ICMP 回 答 报 文 。icmp_input 国 数 的 
第 一 部 分 如 图 11-15 所 示 。 

ip_icmp.c 
131 static struct sockaddr in icmpsrc = { sizeof (struct sockaddr in), AF INET ); 
132 static struct sockaddr in icmpdst ( sizeof (struct sockaddr in), AF INET ); 


133 static struct sockaddr in icmpgw = { sizeof (struct sockaddr in), AF INET ); 
134 struct sockaddr,in icmpmask = ( 8, 0 ); . 


135 void 
136 icmp input(m, hlen) 
137 struct mbuf *m; 


138 int hlen; 

139 ( 

140 struct icmp *icp; 

141 struct ip *ip = mtod(m, struct ip *); 

142 int icmplen = ip-»ip len; 

143 int i; 

144 struct in ifaddr *ia; 

145 void (*ctlfunc) (int, struct sockaddr *, struct ip *); 
146 int code; 

147 extern u_char ip.protox[]l; 

148 /* 

149 * Locate icmp structure in mbuf, and check 
150 * that not corrupted and of at least minimum length. 
151 */ 

152 if (icmplen « ICMP MINLEN) ( 

153 icmpstat.icps tooshort4*; 

154 goto freeit; 

155 ) 

156 i = hlen + min(icmplen, ICMP_ ADVLENMIN); 
157 if (m-»m len < i && (m = m pullup(m, i)) == 0) ( 
158 icmpstat.icps tooshort4*; 

159 return; 

160 ) 

161 ip - mtod(m, struct ip *); 

162 m-»m len -- hlen; 

163 m-»m data += hlen; 

164 icp = mtod(m, struct icmp *); 

165 if (in cksum(m, icmplen)) ( 

166 icmpstat.icps, checksums-«; 

167 goto freeit; 

168 ) 

169 m-»m len «- hlen; 

170 m-»m,data -= hlen; 

171 if (icp->icmp_type > ICMP_MAXTYPE) 

172 goto raw; 

173 icmpstat.icps_inhist [icp->icmp_type]++; 

174 code = icp->icmp_code; 

175 switch (icp-»icmp type) ( 





/* ICMP messáge p: óceda. 


图 11-15 icmp_input že 
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317 default: 

318 break; 
319 ) 

320 raw: 

321 rip input (m); 
322 return; 


323 freeit: 


324 m freemím); 
325 ) 
ip icmp.c 
图 11-15 (£5) 
1. 静态 结构 


131-134 因为 icmp_input 是 在 中 断 时 调用 的 ， 此 时 堆栈 的 大 小 是 有 限 的 。 所 以 ， 为 了 在 
每 次 调用 icmp_input 时 ， 避 免 动态 分 配 造 成 的 延迟 ， 以 及 使 堆栈 最 小 ， 这 4 个 结构 是 动态 分 
配 的 。icmp_input 把 这 4 个 结构 用 作 临 时 变量 。 
icmpsrc 的 命名 容易 引起 误解 ， 因 为 icmp_input 把 它 用 作 临 时 

sockadqdr_in 变 量 ， 而 它 也 从 未 包含 过 源 站 地 址 。 在 Net/2 版 本 的 jcmp_input 中 ， 

在 报 文 被 raw_input 函 数 提交 给 原始 IP 之 前 ， 报 文 的 源 站 地 址 在 函数 的 最 后 被 复制 

到 icmpsrc 中 。 而 Net/3 调 用 只 需要 一 个 指向 该 分 组 的 指针 的 rip_input， 而 不 是 

raw_input。 虽 然 有 这 个 改变 ， 但 是 icmpsrc 仍 然 保 留 了 在 NeU2 中 的 名 字 。 

2. 确认 报 文 
135-139 icmp_input 希 望 收 到 的 ICMP 报 文 (m) 中 含有 一 个 指向 该 数据 报 的 指针 ， 以 及 该 
数据 报 IP 首 部 的 字 节 长 度 (hlen)。 图 11-16 列 出 了 几 个 在 icmp_input 里 用 于 简化 检测 无 效 
ICMP 报 文 的 常量 。 


ICMP MINLEN ICMP 报 文大 小 的 最 小 值 
ICMP TSLEN ICMP 上 时 间 截 报 文大 小 


ICMP_MASKLEN ICMP 地 址 掩 码 报 文大 小 
ICMP_ADVLENMIN ICMP 差 错 ( 建 议 ) 报 文大 小 的 最 小 值 
(UP + ICMP + BADIP = 20 + 8 + 8 = 36) 
ICMP ADVLEN(p) 36 + optsize ICMP 差 错 报 文 的 大 小 ， 包 含 无 效 分 组 P 的 下 选项 的 optsize 字 节 





图 11-16 ICMP 引 用 的 用 来 验证 报 文 的 常量 


140-160 icmp_input 从 ip_len 取 出 ICMP 报 文 的 大 小 ， 并 把 它 存放 在 icmplen 中 。 第 8 
意 讲 过 ，ipintr 从 ip.len 中 排除 了 下 首部 的 长 度 。 如 果 报 文 长 度 太 短 ， 不 是 有 效 报 文 ， 就 
生成 icps_tooshort， 并 丢弃 该 报 文 。 如 果 在 第 一 个 mbuf 中 ，ICMP 首部 和 了 首部 不 是 连 
续 的 ， 则 由 m_pul1up 保 证 ICMP 首部 以 及 封闭 的 IP 分 组 的 IP 首 部 在 同一 个 mbuf 中 。 

3. 验证 检验 和 
161-170 icmp_input 隐 藏 mbuf 中 的 IP 首 部 ， 并 用 in_cksum 验 证 ICMP 的 检验 和 和。 如果 
报 文 被 破坏 ， 就 增加 icps_checksum， 并 丢弃 该 报 文 。 

4. 验证 类 型 
171-175 如 果 报 文 类 型 (icmp_cype) 不 在 识别 范围 内 ，icmp_input 就 跳 过 switch 执 行 
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raw 语 句 ( 图 11-9)。 如 果 在 识别 范围 内 ，icmp_input 复 制 icmp_code，switch 按照 
icmp_type 处 理 该 报 文 。 

在 ICMP switch 语 句 处 理 完 后 ，icmp_input 向 rip_input 发 送 ICMP 报 文 ， 后 者 把 
ICMP 报 文 发 布 给 准备 接收 的 进程 。 只 有 那些 被 破坏 的 报 文 (长 度 或 检验 和 出 错 ) 以 及 只 由 内 核 
处 理 的 ICMP 请 求 报 文才 不 传 给 rip_input。 在 这 两 种 情况 下 ，icmp_input 都 立即 返回 ， 
并 跳 过 raw 处 的 源 程序 。 

5. 原始 ICMP 输 入 
317-325 ”icmp_input 把 到 达 的 报 文 传 给 rip_input，rip_input 依 据 报 文 里 含有 的 协 
议 及 源 站 和 目的 站 地 址 信息 (32 章 )， 把 报 文 发 布 给 正在 监听 的 进程 。 

原始 IP 机 制 允 许 进程 直接 发 送 和 接收 ICMP 报 文 ， 这 样 做 有 几 个 原因 : 

“新 ICMP 报 文 可 由 进程 处 理 而 无 需 修改 内 核 (例如 ， 路 由 器 通告 ， 图 11-28)。 

*。 可 以 用 进程 而 无 需 用 内 核 模 块 来 实现 发 送 ICMP 请 求 和 处 理 回答 的 机 制 (bing 和 

traceroute). 

。 进 程 可 以 增加 对 报 文 的 内 核 处 理 。 与 此 类 似 ， 内 核 在 更 新 完 它 的 路 由 表 后 ， 会 把 ICMP 

重 定向 报 文 传 给 一 个 路 由 守护 程序 。 


11.6 差错 处 理 


我 们 首先 考虑 ICMP 差 错 报 文 。 当 主机 发 出 的 数据 报 无 法 成 功 地 提交 给 目的 主机 时 ， 它 就 
接收 这 些 报 文 。 目 的 主机 或 中 间 的 路 由 器 生成 这 些 报 文 ， 并 将 它们 返回 到 原来 的 系统 。 图 11-17 
显示 了 多 种 ICMP 差 错 报 文 的 格式 。 




















不 可 达 1 k void ip 
"5 type| len| cksum (必须 是 0) 被 破坏 分 组 的 IP 首 部 
"T 
. pmvoid ip 
EON (必须 是 0) 被 破坏 分 组 的 IP 首 部 
2 字 节 2 字 节 





2g ET si 


图 11-17 ICMP 差 错 报 文 (省 略 icmp_) 
图 11-18 中 的 源 程序 来 自 图 11-15 中 的 switch 语 句 。 


1 


ip icmp.c 
176 case ICMP UNREACH: 
177 switch (code) ( 
178 Case ICMP UNREACH NET: 
179 case ICMP UNREACH HOST: 
180 Case ICMP, UNREACH, PROTOCOL: 
181 Case ICMP UNREACH, PORT: 
182 Case ICMP UNREACH SRCFAIL: 
183 code += PRC UNREACH NET; 
184 break; 
185 Case ICMP UNREACH NEEDFRAG: 


图 11-18 icmp_input hg: 差错 报 文 
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186 code = PRC, MSGSIZE; 

187 break; 

188 case ICMP UNREACH, NET UNKNOWN: 

189 case ICMP UNREACH NET PROHIB: 

190 case ICMP UNREACH TOSNET: 

191 code - PRC UNREACH NET; 

192 break; 

193 case ICMP UNREACH HOST UNKNOWN: 

194 case ICMP UNREACH ISOLATED: 

195 case ICMP, UNREACH, HOST. PROHIB: 

196 Case ICMP UNREACH TOSHOST: 

197 Code = PRC, UNREACH, HOST; 

198 break; . 

199 default: 

200 goto badcode; 

201 } 

202 goto deliver; 

203 case ICMP_TIMXCEED : 

204 if (code > 1) 

205 goto badcode; 

206 code += PRC,TIMXCEED INTRANS; 

207 goto deliver; 

208 case ICMP, PARAMPROB: 

209 if (code » 1) 

210 goto badcode; 

211 code - PRC PARAMPROB; 

212 goto deliver; 

213 case ICMP SOURCEQUENCH: 

214 if (code) 

215 goto badcode; 

216 code - PRC QUENCH; 

217 deliver: 

218 /[* 

219 * Problem with datagram; advise higher level routines. 

220 */ 

221 if (icmplen « ICMP ADVLENMIN || icmplen « ICMP ADVLEN(icp) !! 

222 icp-»icmp ip.ip hl « (sizeof(struct ip) >> 2)) ( 

223 icmpstat.icps badlen««; 

224 goto freeit; 

225 H 

226 NTOHS (icp-»icmp. ip.ip len); 

227 icmpsrc.sin, addr = icp-»icmp ip.ip dst; 

228 if (ctlfunc - inetsw[ip protox[icp-»icmp ip.ip pl].pr ctlinput) 

229 (*ctlfunc) (code, (struct sockaddr *) &icmpsrc, 

230" &icp-»icmp ip); 

231 break; 

232 badcode: 

233 icmpstat.icps badcode«*; 

24 pe ip emp 
图 11-18 (£3) 


176-216 对 ICMP 差 错 的 处 理 是 最 少 的 ， 因 为 这 主要 是 运输 层 协议 的 责任 。imcp_input 把 
icmp_type 和 icmp_code 了 映射 到 一 个 与 协议 无 关 的 差错 码 集 上 ， 该 差错 码 是 由 PRC_ 常 量 
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(图 11-19) 表 示 的 。PRC_ 常 量 有 一 个 隐 含 的 顺序 ， 正 好 与 ICMP 的 code 相 对 应 。 这 就 解释 了 为 
什么 code 是 按 一 个 PRC_ 常 量 递 增 的 。 

217-225 ”如 果 识 别 出 类 型 和 码 ，icmp_input 就 跳 到 deliver。 如 果 没 有 识别 出 来 ， 
icmp_input 就 跳 到 badcode。 

如 果 对 所 报告 的 差错 而 言 ， 报 文 长 度 不 正确 ，icps_badlen 的 值 就 加 1， 并 丢弃 该 报 文 。 
NetU3 总 是 丢弃 无 效 的 ICMP 报 文 ， 也 不 生成 有 关 该 无 效 报 文 的 ICMP 差 错 。 这 样 ， 就 避免 在 两 
个 有 缺陷 的 实现 之 间 形 成 无 限 的 差错 报 文 序 列 。 

226-231 icmp_input 调 用 运输 层 协议 的 pr_ct1linput 函 数 ， 该 函数 根据 原始 数据 报 的 
ip._p， 把 到 达 分 组 分 用 到 正确 的 协议 ， 从 而 构造 出 原始 的 IP 数 据 报 。 差 错 码 (code)、 原 始 IP 
数据 报 的 目的 地 址 (icmpsrc) 以 及 一 个 指向 无 效 数据 报 的 指针 (icmp_ip) 被 传 给 
pr_ctlinput( 如 果 是 为 该 协议 定义 的 )。 图 23-31 和 图 27-12 讨 论 这 些 差错 。 
232-234 最 后 ，icps_badcode 的 值 增加 1， 并 终止 switch 语 句 的 执行 。 


主机 似乎 已 关闭 

网 络 接 口 关闭 

无 效 报 文大 小 
首部 不 正确 

某 人 说 要 放 慢 
阻塞 比特 要 求 放 慢 
主机 路 由 选择 重 定向 
网 络 路 由 选择 重 定向 
TOS 和 主机 的 重 定向 
TOS 和 网 络 的 重 定向 


PRC HOSTDEAD 

PRC, IFDOWN 

PRC MSGSIZE 
PRC_PRRAMPROB 
PRC_QUENCH 
PRC_QUENCH2 
PRC_REDIRECT_HOST 
PRC_REDIRECT_NET 
PRC_REDIRECT_TOSHOST 
PRC_REDIRECT_TOSNET 


PRC_ROUTEDEAD 
PRC_TIMXCEED_INTRANS 
PRC_TIMXCEED_REASS 
PRC_UNREACH_HOST 
PRC_UNREACH_NET 
PRC_UNREACH_PORT 
PRC_UNREACH_PROTOCOL 
PRC_UNREACH_SRCFAIL 





如 果 可 能 ， 选 择 新 的 路 由 
传送 过 程 中 分 组 生命 期 到 期 
分 片 在 重 装 过 程 中 生命 期 到 期 
没有 到 主机 的 路 由 
没有 到 网 络 的 路 由 

日 的 主机 称 端 口 未 激活 

日 的 主机 称 协 议 不 可 用 
源 路 由 失败 


图 11-19 与 协议 无 关 的 差错 码 


尽管 PRC_ 常量 表面 上 和 与 协议 无 关 ， 但 它们 主要 还 是 基于 Internet 协 议 族 。 其 结果 
是 ， 当 某 个 Internet 协 议 族 以 外 的 协议 把 自己 的 差错 映射 到 PRC_ 常 量 时 ,会 失去 可 指 


定性 。 


11.7 请 求 处 理 


Net/3 响 应 具有 正确 格式 的 ICMP 请 求 报 文 ， 但 把 无 效 ICMP 请 求 报 文 传 给 rip_input。 
32 章 讨论 了 应 用 程序 如 何 生 成 ICMP 请 求 报 文 。 


第 


除 路 由 器 通告 报 文 外 ， 大 多 数 Net/3 所 接收 的 ICMP 请 求 报 文 都 生成 回答 报 文 。 为 避免 为 同 


答 报 文 分 配 新 的 mbuf，icmp_input 把 请 求 的 缓存 转换 成 回答 的 缓存 ， 并 返回 给 发 送 方 。 我 
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们 将 分 别 讨论 各 个 请 求 。 
11.7.1 回 显 询问 : ICMP_ECRHO 和 ICMP_ECHOREPLY 


尽管 ICMP 非 常 简单 ， 但 是 ICMP 回 显 请 求 和 回答 却 是 网 络 管理 员 最 有 力 的 诊断 工具 。 发 
出 ICMP 回 显 请 求 称 为 “ping” 一 个 主机 ， 也 就 是 调用 ping 程 序 一 次 。 许 多 系统 提供 该 程序 
来 手工 发 送 ICMP 回 显 请 求 。 卷 1 的 第 7 章 详细 讨论 了 ping。 

Ping 程 序 的 名 字 依 照 了 声 纳 脉 冲 (Soar ping)， 用 其 他 物体 对 声 纳 脉 冲 的 反射 所 产生 的 回 
声 确 定 它们 的 位 置 。 卷 1 把 这 个 名 字 解 释 成 Packet InterNet Groper， 是 不 正确 的 。 

图 11-20 是 ICMP 回 显 请 求 和 回答 报 文 的 结构 。 

0 78 15 16 31 
icmp type icmp code icmp cksum 


ICMP ECHO J i 
ICMP_ECHOREPLY 检验 和 





icmp id icmp, seq 
标识 名 顺序 号 


icmp data[] 


可 选 数据 





图 11-20 ICMP 回 显 请 求 和 回答 
icmp_code 总 是 0。 icmp_id 和 icmp_seg 设 置 成 请 求 的 发 送 方 ， 回 答 中 也 不 做 修改 。 
源 系 统 可 以 用 这 些 字段 匹配 请 求 和 回答 。icmp_data 中 到 达 的 所 有 数据 也 被 反射 。 图 11-21 
是 ICMP 回 显 处 理 和 icmp_input 实 现 反射 ICMP 请 求 的 源 程序 。 


ip icmp.c 
235 case ICMP ECHO: 
236 icp-»icmp type = ICMP, ECHOREPLY; 
237 goto reflect; 
1* other ICMP request processing */ 
277 reflect: 
278 ip-»ip len += hlen; /* since ip input deducts this */ 
279 icmpstat.icps reflect-e-; 
280 icmpstat.icps outhist[icp-»icmp type]-*-*; 
281 icmp. reflect (m); 
282 return; . 
ip icmp.c 





图 11-21 icmp input: 回 显 请 求 和 回答 


235-237 通过 把 icmp_type 变 成 ICMP_ECHOREPLY， 并 跳 转 到 reflect 发 送 回 答 ， 
icmp_input 把 回 显 请 求 转 换 成 了 回 显 回答 。 

277-282 在 为 每 个 ICMP 请 求 构造 完 回答 之 后 ，icmp_input 执 行 Tef1lect 处 的 程序 。 在 
这 里 ， 存 储 数据 报 正确 的 长 度 被 恢复 ， 在 icps_reflect 和 icps_outhist[] 中 分 别 计算 
请 求 的 数量 和 ICMP 报 文 的 类 型 。ijcps_reflect (11 .12 节 ) 把 回答 发 回 给 请 求 方 。 


£1l* ICMP: Internetde] jR Xii — 253 


11.7.2 WARAN: ICMP TSTAMPÉIICMP TSTAMPREPLY 


ICMP 时 间 截 报 文 如 图 11-22 所 示 。 
0 78 15 16 31 


icmp type icmp code 
ICMP TSTAMP 0 
Y 















icmp cksum 


















| ICMP TSTAMPREPL 检验 和 
icmp id icmp seq 
标识 符 序号 
icmp otime a 
、 20 字 节 
32 位 原始 时 间 蕉 
icmp rtime 
324 MSIE fo] ER 
icmp ttime 
上 32 位 传送 时 间 惟 








图 11-22 ICMP 时 间 惟 请 求 和 回答 


icmp_code 总 是 0。icmp_id 和 icmp_seqg 的 作用 与 它们 在 ICMP 回 显 报 文中 的 一 样 。 请 
求 的 发 送 方 设置 i cmp_otime (发 出 请 求 的 时 间 ); icmp rtime ( 收 到 请 求 的 时 间 ) 和 
icmp_ttime (发 出 回答 的 时 间 ) 由 回答 的 发 送 方 设置 。 所 有 时 间 都 是 从 UTC 午 夜 开 始 的 之 
秒 数 。 如 果 时 间 值 没有 以 标准 单位 记录 ， 就 把 高 位 置 位 ， 与 Ip 时 间 戳 选项 一 样 。 

图 11-23 是 实现 时 间 戳 报 文 的 程序 。 





ip icmp.c 
238 case ICMP TSTAMP: 
239 if (icmplen < ICMP TSLEN) { 
240 icmpstat.icps badlens«*; 
241 break; 
242 } 
243 icp-»icmp.type = ICMP, TSTAMPREPLY; 
244 icp-»icmp rtime = iptime(); 
245 icp-»icmp ttime = icp-»icmp rtime;  /* bogus, do later! */ 
246 goto reflect; 2 4 
ip icmp.c 


图 11-23 ”icmp_input 函 数 : 时 间或 请 求 和 回答 


238-246 icmp_input 对 ICMP 的 响应 ， 包 括 : 把 icmp_type 改 成 ICMP_TSTAMPREPLY， 
记录 当前 icmp_rtime 和 icmp_ttime， 并 跳 转 到 reflect 发 送 回答 。 

很 难 精确 地 设置 cme_rtime 和 :icmp_ttime。 当 系统 执行 这 段 程序 时 ， 报 文 可 能 已 经 在 正 
输入 队列 中 等 待 处 理 ， 这 时 设置 cmp_rtime 已 经 太 晚 了 。 类 似 地 ， 数 据 报 也 可 能 在 要 求 处 理 时 
在 网 络 接口 的 传输 队列 中 被 延迟 ， 这 时 设置 icmp_ttime 又 太 早 了 。 为 了 把 时 间 蕉 设置 得 更 接近 
真实 的 接收 和 发 送 时 间 ， 必 须 修改 每 个 网 络 的 接口 驱动 程序 ， 使 其 能 理解 ICMP 报 文 (习题 11.8)。 


11.7.3 ”地址 掩 码 询问 : ICMP_MASKREQ 和 ICMP_MASKREPLY 


ICMP 地 址 掩 码 请 求 和 回答 如 图 11-24 所 示 。 
RFC 950 [Mogul 和 Postel 1985] 在 原来 的 CMP 规 范 说 明 中 增加 了 地 址 掩 码 报 文 ， 使 系统 能 


现 某 个 网 络 上 使 用 的 子 网 掩 码 。 
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除非 系统 被 明确 地 配置 成 地 址 掩 码 的 授权 代理 ， 否 则 ，RFC 1122 禁 止 向 其 发 送 掩 码 回答 。 
这 样 ， 就 避免 系统 与 所 有 向 它 发 出 请 求 的 系统 共享 不 正确 的 地 址 掩 码 。 如 果 设 有 管理 员 授 权 


回答 ， 





系统 也 要 忽略 地 址 掩 码 请 求 。 
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icmp. type 


ICMP MASKREQ Lempccode iemp-cksum 
ICMP MASKREQREPLY 愉 验 和 





icmp. id icmp. seq . i 


标识 箱 Wi G 





icmp mask 


32 位 子 网 掩 码 
图 11-24 ICMP 地 址 掩 码 请 求 和 回答 





如 果 全 局 整数 icmpmaskrep1l 非 零 ，Net/3 会 响应 地 址 掩 码 请 求 。icmpmaskrepi 的 默 
认 值 是 0，icmp_syscti 可 以 通过 systct1(8) 程 序 (11.14 节 ) 修 改 它 。 


Net/2 系 统 中 没有 控制 回答 地 址 掩 码 请 求 的 机 制 。 其 结果 是 ， 必 须 非常 正确 地 配 


置 Net/2 接 口 的 地 址 掩 码 ;， 该 信息 是 与 网 络 上 所 有 发 出 地 址 掩 码 请 求 的 系统 共享 的 。 
地 址 掩 码 报 文 的 处 理 如 图 11-25 所 示 。 
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ip icmp.c 


case ICMP MASKREOQ: 
#define satosin(sa) ((struct sockaddr in *)(sa)) 


if (icmpmaskrepl == O0) 
break; 
n * 
* We are not able to respond with all ones broadcast 
* unless we receive it over a point-to-point interface. 
*/ 
if (icmplen < ICMP MASKLEN) 
break; 
switch (ip-»ip dst.s addr) { 


case INADDR BROADCAST: 

case INADDR ANY: 
icmpdst.sin addr - ip-»ip src; 
break; 


default: 
icmpdst.sin addr - ip-»ip dst; 
) 
ia = (Struct in ifaddr *) ifaof ifpforaddr( 
(struct sockaddr *) &icmpdst, m-»m pkthdr.rcvif); 
if (ia == 0) 
break; 
icp-»icmp type - ICMP MASKREPLY; 
icp-»icmp mask = ia-»ia, sockmask.sin, addr.s, addr; 
if (ip-»ip,.src.s,addr == 0) ( 
if (ia-»ia ifp-»if flags & IFF, BROADCAST) 
ip-»ip src = satosin(&ia-»ia, broadaddr)-»sin addr; 
else if (ia-»ia.ifp-»if flags & IFF POINTOPOINT) 
ip-»ip src = satosin(&ia-»ia, dstaddr)-»sin addr; 


ip icmp.c 


图 11-25 icmp_input 函 数 : 地 址 掩 码 请 求 和 回答 
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247-256 如果 没 有 配置 响应 掩 码 请 求 ， 或 者 该 请 求 太 短 ， 这 段 程序 就 中 止 switch 的 执行 ， 
并 把 报 文 传 给 rip_input( 图 11-15)。 
在 这 里 Net/3 无 法 增加 icps_badlen。 对 其 他 ICMP 长 度 差错 ， 它 却 增 加 


icps. badlen, 


1. 选择 子 网 掩 码 
257-267 如 果 地 址 掩 码 请 求 被 发 到 0.0.0.0 或 255.255.255.255， 源 地 址 被 保存 在 icmpdst 中 。 
在 这 里 ，ifaof_offoraddr 把 icmpdst 作 为 源 站 地 址 ， 在 同一 网 络 上 查找 in_ofaddr 结 
构 。 如 果 源 站 地 址 是 0.0.0.0 或 255.255.255.255，ifaof_offoraddr 返 回 一 个 指针 ， 该 指针 
指向 与 接收 接口 相关 的 第 一 个 IP 地 址 。 

default 情 况 (针对 单 播 或 有 向 广播 ) 为 faof_ifpforaddr 保 存 目 的 地 址 。 

2. 转换 成 回答 
269-270 通过 改变 icmp_type， 并 把 所 选 子 网 掩 码 ia_sockmask 复 制 到 icmp_mask， 
就 完成 了 把 请 求 转换 成 回答 的 工作 。 

3. 选择 目的 地 址 
271-276 ”如 果 请 求 的 源 站 地 址 全 0(“ 该 网 络 上 的 这 台 主 机 ”， 只 在 引导 时 用 作 源 站 地 址 ， 
RFC 1122)， 并 且 源 站 不 知道 自己 的 地 址 ，Net/3 必 须 广播 这 个 回答 ， 使 源 站 系统 接收 到 这 个 
报 文 。 在 这 种 情况 下 ， 如 果 接 收 接口 位 于 某 个 广播 或 点 到 点 网 络 上 ， 该 回答 的 目的 地 址 将 分 
别 是 ia_broadaddr 和 ia_dstaddr。icmp.input 把 回答 的 目的 地 址 放 在 ijp_src 里 ， 
为 ref1lect 处 的 程序 (图 11-21) 会 把 源 站 和 目的 站 地 址 倒 过 来 。 不 改变 单 播 请 求 的 地 址 。 


11.7.4 信息 询问 : ICMP_IREQ 和 ICMP_IREQREPLY 


ICMP 信 息 报 文 已 经 过 时 了 。 它 们 企图 广播 一 个 源 和 目的 站 地 址 字段 的 网 络 部 分 为 全 0 的 
请 求 ， 使 系统 发 现 连接 的 IP 网 络 的 数量 。 响 应 该 请 求 的 主机 将 返回 一 个 填 好 网 络 号 的 报 文 。 
主机 还 需要 其 他 办 法 找到 地 址 的 主机 部 分 。 

RFC 1122 推 荐 主机 不 要 实现 ICMP 信 息 报 文 ， 因 为 RARP(RFC 903 [Finlayson et al., 
1984]) 和 BOOTP(RFC 951 [Croft 和 Gilmore 1985]) 更 适 于 发 现 地 址 。RFC 1541 [Droms 1993] 描 
述 的 一 个 新 协议 ， 动 态 主机 配置 协议 (Dynamic Host Configuration Protocol, DHCP)， 可 能 会 
取代 或 增强 BOOTP 的 功能 。 它 现在 是 一 个 建议 的 标准 。 

Net/2 响 应 ICMP 信 息 请 求 报 文 。 但 是 ，Net/3 把 它们 传 给 rip_input。 


11.7.5 路 由 器 发 现 : ICMP_ROUTERADVERT 和 ICMP_ROUTERSOLICIT 


RFC 1256 定义 了 ICMP 路 由 器 发 现 报 文 。Net/3 内 核 不 直接 处 理 这 些 报 文 ， 而 由 rip_input 
把 它们 传 给 一 个 用 户 级 守护 程序 ， 由 它 发 送 和 响应 这 种 报 文 。 
卷 1 的 9.6 节 讨论 了 这 种 报 文 的 设计 和 运行 。 


11.8 重 定向 处 理 


图 11-26 显 未 了 ICMP 重 定向 报 文 的 格式 。 
icmp_input 中 要 讨论 的 最 后 一 个 case 是 ICMP_REDIRECT。 如 8.5 节 的 讨论 ， 当 分 组 
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被 发 给 错误 的 路 由 器 时 ， 产 生 重 定向 报 文 。 该 路 由 器 把 分 组 转发 给 正确 的 路 由 器 ， 并 发 回 一 
个 ICMP 重 定向 报 文 ， 系 统 把 信息 记 入 它 自己 的 路 由 表 。 


0 78 15 16 31 


icmp type icmp code 
ICMP, REDIRECT 0-3 


icmp. gwaddr 


优选 路 由 器 的 下 地 址 








icmp. cksum 


检验 和 
















icmp ip 


下 首部 (包括 选项 ) 和 原始 了 数据 报 中 开始 的 至 少 8 字 节 






图 11-26 ICMP 重 定向 报 文 
图 11-27 显 示 了 icmp_input 用 来 处 理 重 定 向 报 文 的 程序 。 


ip icmp.c 
283 case ICMP REDIRECT: 
284 if (code » 3) 
285 goto badcode; 
286 if (icmplen < ICMP, ADVLENMIN || icmplen < ICMP ADVLEN(icp) |] 
287 icp-»icmp. ip.ip hl < (sizeof(struct ip) >> 2)) ( 
288 icmpstat.icps badlen--«; 
289 break; 
290 ) 
291 /* 
292 * Short circuit routing redirects to force 
293 * immediate change in the kernel's routing 
294 * tables. The message is also handed to anyone 
295 * listening on a raw socket (e.g. the routing 
296 * daemon for use in updating its tables). 
297 */ 
298 icmpgw.sin addr - ip-»ip src; 
299 icmpdst.sin addr = icp-»icmp gwaddr; 
300 icmpsrc.sin,addr = icp-»icmp ip.ip dst; 
301 rtredirect((struct sockaddr *) &icmpsrc, 
302 (struct sockaddr *) &icmpdst, 
303 (struct sockaddr *) 0, RTF GATEWAY | RTF. HOST, 
304 (struct sockaddr *) &icmpgw, (struct rtentry **) 0); 
305 pfctlinput(PRC, REDIRECT HOST, (struct sockaddr *) &icmpsrc); 
306 break; o 
ip_icmp.c 
图 11-27 icmp_input 国 数 : 重 定向 报 文 
1. 验证 


283-290 如果 重 定向 报 文 中 含有 未 识别 的 ICMP 码 ，icmp_input 就 跳 到 badcode( 图 11- 
18 的 232 行 ); 如 果 报 文具 有 无 效 长 度 或 封闭 的 IP 分 组 具有 无 效 首 部 长 度 ， 则 中 止 switch。 图 
11-16 显 示 了 ICMP 差 错 报 文 的 最 小 长 度 是 36(ICMP_ADVLENMIN)。ICMP_ADVLEN(icp) 是 当 
icp 所 指向 的 分 组 有 IP 选 项 时 ，ICMP 差 错 报 文 的 最 小 长 度 。 

291-300 icmp_input 分 别 把 重 定向 报 文 的 源 站 地 址 (发 送 该 报 文 的 网 关 )、 为 原始 分 组 推 
荐 的 路 由 器 (第 一 跳 目 的 地 ) 和 原始 分 组 的 最 终 目 的 地 址 分 配给 icmpgw、icmpdst 和 


icmpsrc. 
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这 里 ，icmpsrc 并 不 包含 源 站 地 址 一 一 这 是 方便 存放 目的 地 址 的 位 置 ， 无 需 再 
定义 一 个 sockadqdr 结 构 。 
2. 更 新 路 由 
301-306 Net/3 按 照 RFC 1122 的 推荐 ， 等 价 地 对 待 网 络 重 定 向 和 主机 重 定向 。 重 定向 信息 被 
传 给 rtredirect， 由 这 个 函数 更 新 路 由 表 。 重 定向 的 目的 地 址 (保存 在 icmpsrc) 被 传 给 
pfctlinput， 由 它 通告 重 定向 的 所 有 协议 域 (7.3 节 )， 使 协议 有 机 会 把 缓存 的 到 目的 站 的 路 
由 作废 。 
按照 RFC 1122， 应 该 把 网 络 重 定向 作为 主机 重 定向 对 待 ， 因 为 当 目 的 网 络 划分 
了 子 网 时 ， 它 们 会 提供 不 正确 的 路 由 信息 。 事 实 上 ，RFC 1009 要 求 ， 在 网 络 划 分 子 
网 的 情况 下 ， 不 发 送 网 络 重 定 向 。 不 幸 的 是 ， 许 多 路 由 器 违背 了 这 个 要 求 。Net/3 从 
不 发 重 定 向 报 文 。 
ICMP 重 定向 报 文 是 IP 路 由 选择 体系 结构 的 基本 组 成 部 分 。 尽 管 被 划分 到 差错 报 文 类 ， 但 
它 却 是 在 任何 有 多 个 路 由 器 的 网 络 正 常 运 行 时 出 现 的 。 第 18 章 更 详细 讨论 了 IP 路 由 选择 问题 。 


11.9 回答 处 理 


内 核 不 处 理 任何 ICMP 回 答 报 文 。ICMP 请 求 由 进程 产生 ， 内 核 从 不 产生 请 求 。 所 以 ， 内 
核 把 它 接收 的 所 有 回答 传 给 等 待 ICMP 报 文 的 进程 。 另 外 ，ICMP 路 由 器 发 现 报 文 被 传 给 


rip input. 


ip icmp.c 
307 /* 
308 * No kernel.processing for the following; 
309 * just fall through to send to raw listener. 
310 */ 
311 case ICMP ECHOREPLY: 
312 Case ICMP ROUTERADVERT: 
313 case ICMP ROUTERSOLICIT: 
314 case ICMP TSTAMPREPLY: 
315 case ICMP IREOREPLY: 
316 case ICMP MASKREPLY: 
317 default: 
318 break; 
319 ) 
320 ràw: 
321 rip input (m); 
322 return; 24 
tp icmp.c 


图 11-28 icmp_input 国 数 : 回答 报 文 
307-322 ”内 核 无 需 对 ICMP 回 答 报 文 做 出 任何 反应 ， 所 以 在 raw 处 的 switch 语 名 后 继续 执行 (图 
11-15)。 注 意 ，switch 语 句 的 default 情 况 ( 末 识 别 的 ICMP 报 文 ) 也 把 控制 传 给 在 raw 处 的 代码 。 
11.10 输出 处 理 f 


有 几 种 方法 产生 外 出 的 ICMP 报 文 。 第 8 章 讲 到 IP 调 用 icmp_error 来 产生 和 发 送 ICMP 25 
错 报 文 。icmp_reflect 发 送 ICMP 回答 报 文 ， 同时， 进程 也 可 能 通过 原始 ICMP 协议 生成 
ICMP 报 文 。 图 11-29 显 示 了 这 些 函 数 与 ICMP 外 出 处 理 之 间 的 关系 。 


258 TCP/IP ŽE %2: 实现 





应 用 程序 








ICMP 差 错 





IP 和 传输 层 协 议 







ICMP 应 答 






icmp reflect 





(图 11-15) 





icmp.send 


图 11-29 ICMP 外 出 处 理 


11.11 icmp errori 


icmp_ertzoz 在 IP 或 运输 层 协议 的 请 求 下 ， 构 造 一 个 ICMBP 差 错 请 求 报 文 ， 并 把 它 传 给 
icmp_reflect， 在 那里 该 报 文 被 返回 无 效 数据 报 的 源 站 。 我 们 分 三 部 分 分 析 这 个 函数 : 





46 void ip icmp.c 

47 icmp error(n, type, code, dest, destifp) 

48 struct mbuf *n; 

49 int type, code; 

50 n long dest; 

51 struct ifnet *destifp; 

52 { 

53 struct ip *oip = mtodí(n, struct ip *), *nip; 

54 unsigned oiplen - oip-»ip hl «« 2; 

55 Struct icmp *icp; 

56 Struct mbuf *m; 

57 unsigned icmplen; 

58 if (type != ICMP. REDIRECT) 

59 icmpstat.icps error--; 

60 /* 

61 * Don't send error if not the first fragment of message. 

62 * Don't error if the old packet protocol was ICMP 

63 * error message, only known informational types. 

64 */ 

65 if (oip-»ip off & "(IP MF | IP. DF)) 

66 goto freeit; 

67 if (oip-»ip == IPPROTO ICMP && type !- ICMP, REDIRECT && 

68 n-»m len >= oiplen + ICMP.MINLEN && . 

69 !ICMP INFOTYPE(((struct icmp *)((caddr t) oip + oiplen))-»icmp type))( 

70 icmpstat.icps oldicmp«s; 

71 goto freeit; 

72 ) 

73 /* Don't send error in response to a multicast or broadcast packet */ 

74 if (n-»m flags & (M BCAST | M MCAST)) 

75 goto freeit; 2. 
ip, icmp.c 


图 11-30 icmp_error%: 验证 


£ilX ICMP: Internetdz d] 4 Xx: iix 259 


“确认 该 报 文 (图 11-30); 

* 构造 首部 (图 11-32); 并 

。 把 原来 的 数据 报 包含 进来 (图 11-33)。 
46-57 参数 是 : n， 指 向 包含 无 效 数据 报 缓 存 链 的 指针 ;，type 和 code，ICMP 差 错 类 型 和 
代码 ，dest，ICMP 重 定向 报 文中 的 下 一 跳 路 由 器 地 址 ; 以 及 destifp， 指 向 原始 IP 分 组 外 
出 接口 的 指针 。mtod 把 缓存 链 指 针 n 转 换 成 oip，oip 是 指向 缓存 中 ip 结 构 的 指针 。 原 始 IP 
分 组 的 字 节 长 度 保存 在 ioplen 中 。 
58-75 icps_error 统 计 除 重 定向 报 文 外 的 所 有 ICMP 差 错 。Net/3 不 把 重 定向 报 文 看 作 错 
误 ， 而 且 icps_error 也 不 是 一 个 SNMP 变 量 。 

icmpb_error 技 弃 无 效 数 据 报 cip， 并 且 在 以 下 情况 下 ， 不 发 送 差错 报 文 : 

“ 除 IP_MF 和 IE_DF 外 ，ip_off 的 某 些 位 非 零 (习题 11.10)。 这 表明 oip 不 是 数据 报 的 第 

一 个 分 片 ， 而 且 ICMP 决 不 能 为 跟踪 数据 报 的 分 片 而 生成 差错 报 文 。 

“无 效 数据 报 本 身 是 一 个 ICMP 差 错 报 文 。 如 果 icmp_type 是 ICMP 请 求 或 响应 类 型 ， 则 

ICMP_INFOTYPE 返 回 真 ;如 果 icmp_type 是 一 个 差错 类 型 ， 则 ICMP_INFOTYPE 返 回 假 。 

Net3 不 考虑 ICMP 重 定向 报 文 差错 ， 尽 管 REFC 1122 要 求 考虑 。 


。 数 据 报 作为 链 路 层 广 播 或 多 播 到 达 ( 由 M_BCAST 和 M_MCAST 标 志 表 明 )。 

在 以 下 两 种 其 他 情况 下 ， 不 能 发 送 ICMP 差 错 报 文 : 

。 该 数据 报 是 发 给 IP 广 播 和 IP 多 播 地址 的 。 

。 数 据 报 的 源 站 地 址 不 是 单 播 IP 地 址 (也 即 ， 这 个 源 站 地 址 是 一 个 全 零 地 址 、 环 回 地 址 、 
广播 地 址 、 多 播 地 址 或 E 类 地 址 )。 

Net/3 无 法 检 查 第 一 种 情况 。i ctnB_reflect 函 数 强调 了 第 二 种 情况 (11.12 节 )。 


有 趣 的 是 ，Net2 的 Deering 多 播 扩展 并 不 丢弃 第 一 种 类 型 的 数据 报 。 因 为 Net3 的 
多 播 程序 来 自 Deering 多 播 扩 展 ， 所 以 ,检测 似乎 被 删 去 了 。 


这 些 限 制 的 目的 是 为 了 避免 有 错 的 广播 数据 报 触发 网 络 上 所 有 主机 都 发 出 ICMP 差 错 报 
文 。 当 网 络 上 所 有 主机 同时 要 发 送 差错 报 文 时 ， 产 生 的 广播 风暴 会 使 整个 网 络 的 通信 崩溃 。 
这 些 规 则 适用 于 ICMP 差 错 报 文 ， 但 不 适用 于 ICMP 回 答 。 如 REFC 1122 和 RFC 1127 的 讨论 ， 
允许 响应 广播 请 求 ， 但 既 不 推荐 也 不 鼓励 。Net/3 只 响应 具有 单 播 源 地 址 的 广播 请 求 ， 因 为 
ip_output 会 把 返回 到 广播 地 址 的 ICMP 报 文 丢弃 (图 11-39)。 
图 11-31 是 ICMP 差 错 报 文 的 构造 。 
图 11-32 的 程序 构造 差错 报 文 。 
76-106 icmp_error 以 下 面 的 方式 构造 ICMP 差 错 报 文 的 首部 : 
" m_gethdr 分 配 一 个 新 的 分 组 首部 缓存 。MH_ALIGN 定 位 缓存 的 数据 指针 ， 使 无 效 数据 
报 的 ICMP 首 部 、IP 首 部 (和 选项 ) 和 最 多 8 字 节 的 数据 被 放 在 缓存 的 最 后 。 
。icmp_type、icmp_code、icmp_gwadqr( 用 于 重 定向 )、icmp_pptr( 用 于 参数 问 
题 ) 和 icmp_nextmtu( 用 于 要 求 分 片 报 文 ) 被 初始 化 。icmp_nextmtu 字 段 实现 了 REFC 
1191 中 描述 的 要 求 分 片 报 文 的 扩展 。 卷 1 的 24.2 节 描述 的 “路 径 MTU 发 现 算法 ”依赖 于 
这 个 报 文 。 
一 旦 构造 好 ICMP 首 部 ， 就 必须 把 原始 数据 报 的 一 部 分 附 到 首部 上 ， 如 图 11-33 所 示 。 
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有 差错 的 数据 报 
ICMP 差 错 报 文 
图 11-31 ICMP 差 错 报 文 的 构造 
76 /* ip icmp.c 
77 * First, formulate icmp message 
78 */ 
79 m - m gethdr(M DONTWAIT, MT HEADER); 
80 if (m -- NULL) 
81 goto freeit; 
82 icmplen = oiplen + min(8, oip-»ip len); 
83 m-»m len = icmplen + ICMP. MINLEN; 
84 MH ALIGN(m, m-»m len); 
85 icp - mtod(m, struct icmp *); ` 
86 if ((u int) type > ICMP_MAXTYPE) 
87 panic("icmp error"); 
88 icmpstat.icps outhist[type]l-*; 
89 icp-»icmp type = type; 
90 if (type == ICMP REDIRECT) 
91 icp-»icmp gwaddr.s addr = dest; 
92 else ( 
93 icp-»icmp void = 0; 
94 /* 
95 * The following assignments assume an overlay with the 
96 * zeroed icmp void field. 
97 */ 
98 if (type == ICMP PARAMPROB) ( 
99 icp-»icmp pptr - code; 
100 code = 0; 
101 ) else if (type == ICMP UNREACH && 
102 code == ICMP UNREACH NEEDFRAG && destifp) ( 
103 icp-»icmp nextmtu - htons(destifp-»if mtu); 
104 } 
105 } 
106 icp->icmp_code = code; 2. 
ip icmp.c 





图 11-32 icmp error: 报 文 首 部 构造 


107-125 无 效 数据 报 的 IP 首 部 、 选项 和 数据 ( - 共 是 icmplen 个 字 节 ) 被 复制 到 ICMP 差 错 报 
文中 。 同 时 ， 首 部 的 长 度 被 加 回 无 效 数据 报 的 ijp_len 中 。 


在 udp_usrreq 中 ，UDP 也 把 首部 长 度 加 回 到 无 效 数据 报 的 jp_1len。 其 结果 是 


一 个 ICMP 报 文 ， 该 报 文具 有 无 效 分 组 IP 首 部 内 的 不 正确 的 数据 报 长 度 。 作 者 发 现 ， 
许多 基于 Net/2 程 序 的 系统 都 有 这 个 错误 ，Net/1 系统 没有 这 个 问题 。 
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- - - - - ip icmp.c 
107 bcopy((caddr t) oip, (caddr. t) & icp-»icmp ip, icmplen); 
108 nip = &icp-»icmp.ip; 
109 nip-»ip len = htons((u,short) (nip-»ip len + oiplen)); 
110 /* 
111 * Now, copy old ip header (without options) 
112 * in front of icmp message. 
113 */ 
114 if (m-»m data - sizeof(struct ip) < m-»m.pktdat) 
115 panic("icmp len"); 
116 m-»m data -= sizeof(struct ip); 
117 m-»m len += sizeof(struct ip); 
118 m-»m pkthdr.len - m-»m len; 
119 m-»m pkthdr.rcvif - n-»m pkthdr.rcvif; 
120 nip = mtod(m, struct ip *); 
121 bcopy((caddr t) oip, (caddr t) nip, sizeof(struct ip)); 
122 nip-»ip len - m-»m len; 
123 nip-»ip hl = sizeof(struct ip) >> 2; 
124 nip-»ip.p = IPPROTO ICMP; 
125 nip-»ip.tos = 0; 
126 icmp reflect (m); 
127 freeit: 
128 m freemín); 
129 ) " 
ip, icmp.c 


11-33 icmp errori: 包含 原始 数据 报 


因为 MH_ALIGN 把 ICMP 报 文 分 配 在 缓存 的 最 后 ， 所 以 缓存 的 前 面 应 该 有 足够 的 空间 存放 
IP 首 部 。 无 效 数据 报 的 IP 首 部 ( 除 选 项 外 ) 被 复制 到 ICMP 报 文 的 前 面 。 
Net/2 版 本 的 这 部 分 有 一 个 错误 : 函数 的 最 后 一 个 bcopy 移 动 ociplen 个 字 节 ， 
其 中 包括 无 效 数 据 报 的 选项 。 应 该 只 复制 没有 选项 的 标准 首部 。 
在 恢复 正确 的 数据 报 长 度 (ip_1en)、 首 部 长 度 (ip_h1) 和 协议 (ip_p) 后 ，IP 首 部 就 完整 
了 。TOS 字 段 (ip_tos) 被 清除 。 
RFC 792 和 RFC 1122 推 荐 在 ICMP 报 文中 ， 把 TOS 字 段 设 为 0。 
126-129 ”完整 的 报 文 被 传 给 icmp_reflect， 由 icmp_reflect 把 它 发 回 源 主机 。 丢 掉 
无 效 数据 报 。 


11.12 icmp reflect 


icmp_reflect 把 ICMP 回 答 或 差错 发 回 给 请 求 或 无 效 数据 报 的 源 站 。 必 须 牢记 ， 
icmp_reflect 在 发 送 数据 报 之 前 ， 把 它 的 源 站 地 址 和 目的 地 址 倒 过 来 。 与 ICMP 报 文 的 源 
站 和 目的 站 地 址 有 关 的 规则 非常 复杂 ， 图 11-34 对 其 中 玫 个 函数 的 作用 作 了 小 结 。 

我 们 分 三 部 分 讨论 icmp_ref1lect 函 数 : 源 站 和 目的 站 地 址 选择 、 选 项 构造 及 组 装 和 发 
送 。 图 11-35 显 示 了 该 函数 的 第 一 部 分 。 

1. 设置 目的 地 址 
329-345 icmp_reflect 一 开始 ， 就 复制 ip_dst， 并 把 请 求 或 差错 报 文 的 源 站 地 址 
ip_src 移 到 ip_dst。icmp_error 和 icmp_reflect 保 证 : ip_src 对 差错 报 文 而 言 是 有 
效 的 目的 地 址 。ip_output 丢 掉 所 有 发 往 广播 地 址 的 分 组 。 
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icmp input TCRERERERETS A, Fi HET DUE Ff s EL IHRE CER IO BE 

icmp error TEE Zo BERE RI NR e E RA RRR DE ERRER. MARRURA) EIE 
IP 广 播 或 多 播 地 址 的 数据 报 引 起 的 报 文 

icmp reflect 玉 弃 报 文 ， 市 不 是 把 它 返 上 hl 给 多 播 或 实验 地 址 


把 非 单 播 日 的 地 址 转换 成 接收 接 11 的 地 址 ， 对 返回 的 报 文 来 说 ， 日 的 地 址 就 是 -个 有 
效 的 源 地 址 
交换 源 丫 和 日 的 站 的 地 址 
ip. output 按照 [CMP 的 请 求 玉 弃 输出 的 广播 (也 就 是 说 ， 于 弃 由 发 往 广 播 地 址 的 分 组 产生 的 差错 
报 文 ) 





图 11-34 ICMPZ3ERIBbRE INE 
2. 选择 源 站 地 址 
346-371 icmp_reflect 在 in_ifaddr 中 找到 具有 单 播 或 广播 地 址 的 接 日 ， 该 接口 地 址 与 
原始 数据 报 的 目的 地 址 匹配 ， 这 样 ，i cmp_reflect 就 为 报 文选 好 了 源 地 址 。 在 多 接口 主机 上 ， 
匹配 的 接口 可 能 不 是 接收 该 数据 报 的 接口 。 如 果 没 有 匹配 ， 就 选择 正在 接收 的 接口 的 
in_ifadqdqr 结 构 ， 或 者 in_ifaddr 中 的 第 一 个 地 址 (如 果 该 接口 没有 被 配置 成 卫 可 用 的 )。 该 
级 数 把 ip_src 设 成 所 选 的 地 址 ， 并 把 ip_tt1I 改 为 2355(MAXTTL)， 因 为 这 是 一 个 新 的 数据 报 。 
RFC 1700 推 荐 把 所 有 IP 分 组 的 TTL 字 段 设 成 64。 但 是 现在 ， 许 多 系统 把 ICMP 报 
文 的 TTL 设 成 255。 | 
TTL 的 取 值 有 一 个 拆 袁 。 小 的 TTL 避 免 分 组 在 路 由 回路 里 面 循 环 ， 但 也 有 可 能 使 
分 组 无 法 到 达 远 一 点 的 节点 (有 很 多 跳 )。 大 的 TTL 允 许 分 组 到 达 远 距离 的 主机 ， 但 却 
让 分 组 在 路 由 回路 里 循环 较 长 时 间 。 


329 void Tp-icmp.c 
330 icmp reflect (m) 

331 struct mbuf *m; 

332 ( 

333 struct ip *ip = mtod(m, struct ip *); 

334 struct in ifaddr *ia; 

335 struct in addr t; 

336 struct mbuf *opts - 0, *ip srcroute(); 

337 int optlen = (ip-»ip hl «« 2) - sizeof(struct ip); 

338 if (!in canforward(ip-»ip src) && 

339 ((ntohl(ip-»ip src.s, addr) & IN CLASSA NET) !- 

340 (IN.LOOPBACKNET << IN CLASSA NSHIFT))) ( 

341 m freem(ím); /* Bad return address */ 

342 goto done; /* Ip output() will check for broadcast */ 
343 } 

344 t = ip-»ip dst; 

345 ip-»ip dst = ip-»ip src; 

346 /* 

347 * If the incoming packet was addressed directly to us, 
348 * use dst as the src for the reply. Otherwise (broadcast 
349 * or anonymous), use the address which corresponds 

350 * to the incoming interface. 

351 */ 

352 for (ia = in ifaddr; ia; ia = ia-»ia, next) ( 


图 11-35 icmp reflect: 地 址 选择 
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353 if (t.s ,addr == IA SIN(ia)-»sin addr.s addr) 
354 break; ` 
355 if ((ia-»ia ifp-»if flags & IFF_BROADCAST) && 
356 t.S addr == satosin(&ia-»ia broadaddr)-»sin addr.s, addr) 
357 break; 
358 ) 
359 icmpdst.sin, addr = t; 
360 if (ia == (struct in ifaddr *) 0) 
361 ia - (struct in ifaddr *) ifaof ifpforaddr( 
362 (struct sockaddr *) &icmpdst, m-»m pkthdr.rcvif); 
363 /* 
364 * The following happens if the packet was not addressed to us, 
365 * and was received on an interface with no IP address. 
366 */ 
367 if (ia == (struct in ifaddr *) 0) 
368 ia - in ifaddr; 
369" t = IA SIN(ia)-»sin addr; 
370 ip-»ip src = t; 
371 ip-»ip ttl - MAXTTL; e. 
- ip_icmp.c 
图 11-35 (D 


RFC 1122 提 出 ， 对 到 达 的 回 显 请 求 或 时 间 戳 请 求 ， 要 求 把 其 中 的 源 路 由 选项 及 记录 路 由 
和 时 间 惟 选项 的 建议 ， 附 到 回答 报 文 中 。 在 这 个 过 程 期 间 ， 源 路 由 必须 被 逆转 过 来 。REFC 
1122 没 有 涉及 在 其 他 ICMP 回 答 报 文中 如 何 处 理 这 些 选项 。Net/3 把 这 些 规则 应 用 于 地 址 掩 码 
请 求 ， 因 为 它 在 构造 地 址 掩 码 回答 后 调用 了 icmp_reflect( 图 11-21)。 

程序 的 下 一 部 分 (图 11-36) 为 ICMP 报 文 构 造 选项 。 


372 if (optlen > 0) ( Tp Icmp.c 
373 u_char *cp; 

374 int opt, cnt; 

375 u int len; 

376 /* 

377 * Retrieve any source routing from the incoming packet; 
378 * add on any record-route or timestamp options. 

379 */ 

380 Cp = {u_char *) (ip + 1); 

381 if ((opts = ip srcroute()) -- 0 && 

382 (opts = m gethdr(M DONTWAIT, MT HEADER))) ( 

383 opts-»m len - sizeof(struct in addr); 

384 mtod(opts, struct in_addr *)-»s addr = 0; 

385 } 

386 if (opts) { 

387 for (cnt = optlen; cnt > 0; cnt -= len, cp += len) { 
388 opt = cp[IPOPT OPTVAL]; 

389 if (opt -- IPOPT EOL) 

390 break; 

391 if (opt == IPOPT NOP) 

392 len = 1; 

393 else ( 

394 len = cp[IPOPT OLEN]; 

395 if (len <= 0 || len > cnt) 

396 break; 

397 ) 

398 /* 


(al 


图 11-36 icmp_reflect 国 数 : 选项 构造 
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* Should check for overflow, but it "can't happen" 
*/ 
if (opt == IPOPT RR || opt == IPOPT TS || 
Opt == IPOPT SECURITY) ( 
bcopy((caddr t) cp, 
mtod(opts, caddr t) + opts-»m len, len); 
opts-»m len += len; : 
} 
} 
/* Terminate & pad, if necessary */ 
if (cnt = opts-»m len $ 4) { 


for (; cnt < 4; cnt««) ( 
*(mtod(opts, caddr t) « opts-»m len) - 
IPOPT  EOL; 


opts-»m len-«*; 


图 11-36 (£5 


3. 取得 北 转 后 的 源 路 由 
372-385 如 果 到 达 的 数据 报 没 有 选项 ， 控 制 被 传 给 430 行 (图 11-37)。icmp_error 传 给 
icmp_reflect 的 差错 报 文 从 来 没有 IP 选 项 ， 所 以 后 面 的 程序 只 用 于 那些 被 转换 成 回答 并 直 
接 传 给 icmp_reflect 的 ICMP 请 求 。 

cp 指向 回答 的 选项 的 开始 。ip_srcroute 逆 转 并 返回 所 有 在 ipintr 处 理 数据 报时 保存 
下 来 的 源 路 由 选项 。 如 果 ip_srcoute 返 回 0， 即 请 求 中 没有 源 路 由 选项 ，icmp_reflect 
分 配 并 初始 化 一 个 mbuf， 作 为 空 的 jpoption 结 构 。 

4. 加 上 记录 路 由 和 时 间 稚 选项 
386-416 如 果 opts 指 向 某 个 缓存 ，for 循 环 搜索 原始 了 P 首 部 的 选项 ， 在 ip_srcroute 返 回 
的 源 路 由 后 面 加 上 记录 路 由 和 时 间 锥 选项 。 

在 ICMP 报 文 发 送 之 前 必须 移 走 原始 首部 里 的 选项 。 这 由 图 11-37 中 的 程序 完成 。 





417 
418 
419 
420 
421 
422 
423 
424 
425 
426 
427 
428 
429 
430 


/* 
* Now strip out original options by copying rest of first 
* mbuf's data back, and adjust the IP length. 


*/ 
ip-»ip len -= optlen; 
ip-»ip hl - sizeof(struct ip) »» 2; 
m-»m len -- optlen; 
if (m-»m,.flags & M PKTHDR) 


m-»m pkthdr.len -- optlen; 
optlen += sizeof(struct ip); 
bcopy((caddr t) ip + optlen, (caddr t) (ip + 1), 
(unsigned) (m-»m len - sizeof(struct ip))); 
) 
m-»m flags &- ^(M BCAST | M MCAST); 
icmp send(m, opts); 
done: 

if (opts) 

(void) m free(opts):; 


图 11-37 icmp reflect: 最 后 的 组 装 


ip icmp.c 


ip icmp.c 


种 17 昔 ICMP: internetdé t] JR XS box 265 


5. 移 走 原 始 选项 
417-429 icmp_reflect 把 ICMP 报 文 移 到 IP 首 部 的 后 面 ， 这 样 就 从 原始 请 求 中 移 走 了 选 
项 。 如 图 11-38 所 示 。 新 选项 在 opts 所 指向 的 mbuf 里 ， 被 lp_output 再 次 插入 。 

6. 发 送 报 文 和 清除 
430-435 在 报 文 和 选项 被 传 给 icmp_send 之 前 ， 要 明确 地 清除 广播 和 多 播 标志 位 。 此 后 释 
放 掉 存 放 选 项 的 缓存 。 


EX 
一 一 一 人 一 一 


m M 下 选项 
bcopy Z fi RS 正 首部 (optem) 








bcopy 之 后 


图 11-38 icmp reflect: 移 走 选项 


11.13 icmp send 4] 


icmp_send( 图 11-39) 处 理 所 有 输出 的 ICMP 报 文 ， 并 在 把 它们 传 给 IP 层 之 前 计算 ICMP 检 
验 和 。 





440 void Tp-icmp.e 
441 icmp send(m, opts) 
442 struct mbuf *m; 
443 struct mbuf *opts; 
444 ( 
445 struct ip *ip = mtod(m, struct ip *); 
446 int hlen; 
447 struct icmp *icp; 
448 hlen - ip-»ip hl «« 2; 
. 449 m-»m data «- hlen; 
450 m-»m len -- hlen; 
451 icp = mtod(m, struct icmp *); 
452 icp-»icmp cksum - 0; 
453 icp-»icmp cksum = in cksum(m, ip-»ip len - hlen); 
454 m-»m data -- hlen; 
455 m-»m, len «- hlen; 
456 (void) ip output(m, opts, NULL, 0, NULL); 
457 ) "n 
ip icmp.c 





图 11-39 icmp send 


440-457. 与 icmp_input 检 测 ITCMP 检 验 和 一 样 ，NeV3 调 整 缓存 的 数据 指针 和 长 度 ， 隐 藏 下 
首部 ， 让 in-cksum 只 看 到 ICMP 报 文 。 计 算 好 的 检验 和 放 在 首部 的 icmp_cksum， 然 后 把 数 
据 报 和 所 有 选项 传 给 ip_output 。ICMP 层 并 不 维护 路 由 高 速 缓存 ， 所 以 icmp_senda 只 传 给 
ip_output 一 个 空 指针 (第 4 个 参数 )， 而 不 是 控制 标志 。 特 别 是 不 传 TP_ALLOWBROADCAST,， 
所 以 ip_output 丢 弈 所 有 具有 广播 目的 地 址 的 ICMP 报 文 (也 就 是 说 ， 到 达 原 始 数据 报 的 具有 
无 效 的 源 地 址 )。 
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11.14. icmp sysctli AX 


IP 的 icmp_sysct1 国 数 只 支持 图 11-40 列 出 的 选项 。 系 统管 理 员 可 以 用 sysct1 程 序 修 改 


图 11-40 :icmp_sysct1 参 数 
















图 11-41 显 示 了 icmp_sysct1 果 数 。 


467 int ip icmp.c 

468 icmp sysctl(name, namelen, oldp, oidlenp, newp, newlen) 

469 int *name; 

470 u int “amelen; 

471 void *oldp; 

472 size t *oldlenp; 

473 void *newp; 

474 size t newlen; 

475 { 

476 /* All sysctl names at this level are terminal. */ 

477 if (namelen !- 1) 

478 return (ENOTDIR); 

479 switch (name[0]) ( 

480 case ICMPCTL, MASKREPL: 

481 return (sysctl int(oldp, oldlenp, newp, newlen, &icmpmaskrepi)); 

482 default: 

483 return (ENOPROTOOPT); 

484 } 

485 /* NOTREACHED */ 

486 } 
ip icmp.c 


图 11-41 icmp_syscti K% 
467-478 如 果 人 缺少 所 要 求 的 ICMP sysct1 名 ， 就 返回 ENOTDIR。 


479-486 ICMP 级 以 下 没有 选项 ， 所 以 ， 如 果 丰 识别 选项 ， 该 函数 就 调用 sysct1_int 修 改 
icmpmaskrep1 或 返回 ENOPROTOOPT。 


11.15. 小结 


1CMP 协 议 是 作为 IP 上 面 的 运输 层 实现 的 但 它 与 卫 层 紧密 结合 一 起 。 我 们 看 到 ， 内 核 直 
接 响应 ICMP 请 求 报 文 ， 但 把 差错 与 回答 传 给 合适 的 运输 层 协 议 或 应 用 程序 处 理 。 当 一 个 
ICMP 重 定向 报 文 到 达 时 ， 内 核 立刻 重 定向 表 ， 并 且 也 把 重 定 向 传 给 所 有 等 待 的 进程 ， 比 如 典 


型 地 传 给 一 个 路 由 守护 程序 。 . 
我 们 将 在 23.9 和 27.6 节 看 到 UDP 和 TCP 协 议 如 何 响应 ICMP 差 错 报 文 ， 在 第 32 章 看 到 进程 


如 何 产生 [CMP 请 求 。 
习题 
11.1 一 个 且 的 地 址 是 0.0.0.0 的 请 求 所 产生 的 ICMP 地 址 掩 码 回答 报 文 的 源 地 址 是 什么 ? 


11.2 


11.3 


11.4 


11.5 


11.6 


11.7 
11.8 


11.9 
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试 描述 一 个 具有 假 的 单 播 源 地 址 的 分 组 在 链 路 级 的 广播 会 如 何 影响 网 络 上 另 一 个 主 
机 的 运行 。 

RFC 1122 建 议 ， 如 果 新 的 第 一 跳 路 由 器 与 旧 的 第 一 跳 路 由 器 位 于 不 同 的 子 网 ， 或 者 
如 果 发 送 报 文 的 路 由 器 不 是 报 文 最 终 目的 地 的 当前 第 一 跳 路 由 器 ， 那 么 主机 应 该 和 
弃 ICMP 重 定向 报 文 。 为 什么 要 采纳 这 个 建议 ? 

如 果 ICMP 信 息 请 求 是 过 时 的 ， 为 什么 icmp_inout 要 把 它 传 给 rip_input 而 不 是 
EFR CHE? 

我 们 指出 ，Net/3 在 把 IP 分 组 放 入 一 个 ICMP 差 错 报 文 之 前 ， 并 不 把 它 的 偏 移 和 长 度 
"EB PER "EFE. AMT ZO IPAE TEE BER VUE JC X ER? 
描述 某 种 情况 ， 使 图 11-25 的 ifaof_ifpforaddr 返 回 一 个 空 指针 。 

在 一 次 时 间 惟 询问 中 ， 时 间 愉 后面 的 数据 会 怎么 样 ? 

实现 以 下 改变 ， 改 进 ICMP 时 间或 程 序 : 

在 缓存 分 组 首部 加 上 一 个 时 间 蕉 字段 ， 让 设备 驱动 程序 把 接收 分 组 的 确切 时 间 记 录 
在 这 个 字段 内 ， 并 用 ICMP 时 间 惟 程序 把 该 值 复 制 到 icmp_rtime 字 段 。 

在 输出 端 ， 让 ICMP 时 间 惟 程序 保存 分 组 中 的 某 个 字 节 偏 移 ， 该 位 置 用 于 保存 时 间 
截 里 的 当前 时 间 。 人 和 修改 设备 驱动 程序 ， 在 发 送 分 组 之 前 插入 时 间 截 。 

修改 icmp_error， 使 ICMP 差 错 报 文中 返回 最 多 64 字 节 ( 像 Solaris 2.x 一 样 ) 的 原始 
数据 。 


11.10 图 11-30 中 ，ip_off 的 高 位 被 置 位 的 分 组 会 发 生 什么 情况 ? 
11.11 为 什么 图 11-39 中 丢弃 了 ip_output 返 回 的 值 ? 


第 12 章 IP zm 播 


12.1 引言 


第 8 章 讲 到 ，D 类 IP 地 址 (224.0.0.0 到 239.255.255.255) 不 识别 互联 网 内 的 单个 接口 ， 但 识别 
接口 组 。 因 为 这 个 原因 ，D 类 地 址 被 称 为 多 播 组 (multicast group)。 具 有 D 类 目的 地 址 的 数据 报 
被 提交 给 互联 网 内 所 有 加 入 相应 多 播 组 的 各 个 接口 。 

Internet 上 利用 多 播 的 实验 性 应 用 程序 包括 : 音频 和 视频 会 议 应 用 程序 、 资 源 发 现 工具 和 
共享 白板 等 。 

多 播 组 的 成 员 由 于 接口 加 入 或 离开 组 而 动态 地 变化 ， 这 是 根据 各 系统 上 运行 的 进程 的 请 
求 决定 的 。 因 为 多 播 组 成 员 与 接口 有 关 ， 所 以 多 接口 主机 可 能 针对 每 个 接口 ， 都 有 不 同 的 多 
播 组 成 员 关 系 表 。 我 们 称 一 个 特定 接口 上 的 组 成 员 关 系 为 一 对 {接口 ， 多 播 组 }。 

单个 网 络 上 的 组 成 员 利 用 IGMP 协 议 (第 13 章 ) 在 系统 之 间 通 信 。 多 播 路 由 器 用 多 播 选 路 协 
议 ( 第 14 章 )， 如 DVMRP(Distance Vector Multicast Routing Protocol， 距 离 向 量 多 播 路 由 选择 协 
议 ) 传 播 成 员 信息 。 标 准 卫 路 由 器 可 能 支持 多 播 选 路 ， 或 者 用 一 专用 路 由 器 处 理 多 播 选 路 。 

如 以 太 网 、 令 牌 环 和 FDDI 一 类 的 网 络 直接 支持 硬件 多 播 。 在 NeV3 中 ， 如 果 某 个 接口 支持 
多 播 ， 那 么 在 接口 的 ifnet 结 构 (图 3-7) 中 的 if_flags 标 志 的 IFF_MULTICRAST 比 特 就 被 打 
开 。 因 为 以 太 网 被 广泛 使 用 ， 并 且 NeU3 有 以 太 网 驱动 器 程序 ， 所 以 我 们 将 以 以 太 网 为 例 说 明 
硬件 支持 的 IP 多 播 。 多 播 业 务 通常 在 如 SLIP 和 环 回 接口 等 的 点 到 点 网 络 上 实现 。 

如 果 本 地 网 络 不 支持 硬件 级 多 播 ， 那 么 在 某 个 特定 接口 上 就 得 不 到 IP 多 播 业务 。RFC 
1122 并 不 反对 接口 层 提供 软件 级 的 多 播 业 务 ， 只 要 它 对 IP 是 透明 的 。 

RFC 1112 [Deering 1989] 描述 了 多 播 对 主机 的 要 求 。 分 三 个 级 别 : 

0 级 : 主机 不 能 发 送 或 接收 让 多 播 。 

这 种 主机 应 该 自动 丢弃 它 收 到 的 具有 DD 类 目的 地 址 的 分 组 。 

1 级 : 主机 能 发 送 但 不 能 接收 IP 多 播 。 

在 向 某 个 IP 多 播 组 发 送 数据 报 之 前 ， 并 不 要 求 主机 加 入 该 组 。 多 播 数 据 报 的 发 送 方 
式 与 单 播 一 样 ， 除 了 多 播 数 据 报 的 目的 地 址 是 瑟 多 播 组 之 外 。 网 络 驱 动 器 必须 能 够 
识别 出 这 个 地 址 ， 把 在 本 地 网 络 上 多 播 数据 报 。 

2 级 : 主机 能 发 送 和 接收 IP 多 播 。 

为 了 接收 下 多 播 ， 主 机 必须 能 够 加 入 或 离开 多 播 组 ， 而 且 必 须 支 持 IGMP， 能 够 在 至 少 
一 个 接口 上 交换 组 成 员 信息 。 多 接口 主机 必须 支持 在 它 的 接口 的 一 个 子 网 上 的 多 播 。 
Net/3 符 合 2 级 主机 要 求 ， 可 以 完成 多 播 路 由 器 的 工作 。 与 单 播 IP 选 路 一 样 ， 我 们 假 
定 所 描述 的 系统 是 一 个 多 播 路 由 器 ， 并 加 上 了 Net/3 多 播 选 路 的 程序 。 


知名 的 IP 多 播 组 


和 UDP、TCP 的 端口 号 一 样 ， 互 联网 号 授权 机 构 TANA(Internet Assigned Numbers 
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Authority) 维 护 着 一 个 注册 的 卫 多 播 组 表 。 当 前 的 表 可 以 在 RFC 1700 中 查 到 。 有 关 IANA 的 其 
他 信息 可 以 在 RFC 1700 中 找到 。 图 12-1 只 给 出 了 一 些 知 名 的 多 播 组 。 


Net/3 常 量 


224.0.0.0 预 留 INADDR_UNSPEC_GROUP 
224.0.0.1 这 个 子 网 上 的 所 有 系统 INADDR ALLHOSTS GROUP 
224.0.0.2 这 个 子 网 上 的 所 有 路 由 器 


224.0.0.3 设 有 分 配 TINaDDR_MaX LOCAL GROUP 
224.0.0.4 DVMRP h% 
224.0.0.255 没有 分 配 


224.0.1.1 NTP 网 络 时 间 协 议 
224.0.1.2 SGI-Dogfight 
图 12-1 一 些 注册 的 I1P 多 播 组 


前 256 个 组 (224.0.0.0 到 224.0.0.255) 是 为 实现 IP 单 播 和 多 播 选 路 机 制 的 协议 预 留 的 。 不 管 
发 给 其 中 任意 一 个 组 的 数据 报 内 IP 首 部 的 TTL 值 如 何 变化 ， 多 播 路 由 器 都 不 会 把 它 转发 出 本 
地 网 络 。 
RFC 1075 只 对 224.0.0.0 组 和 224.0.0.1 组 有 这 个 要 求 ， 但 最 常见 的 多 播 选 路 实现 
mrouted 限 制 这 里 讨论 的 其 他 组 。 组 224.0.0.0(INADDR_UNSPEC_GROUP) 被 预 留 ， 组 
224.0.0.255(INADDR_MAX_LOCAL_GROUP) 标 志 着 本 地 最 后 一 个 多 播 组 。 


对 于 符合 2 级 的 系统 ， 要 求 其 在 系统 初始 化 时 (图 6-17)， 在 所 有 的 多 播 接 口上 加 入 
224.0.0.1 组 (INADDR_ALLHOSTS_GROUP)， 并 且 保 持 为 该 组 成 员 ， 直 到 系统 关闭 。 在 一 个 互 
联网 上 ， 没 有 多 播 组 与 每 个 接口 都 对 应 。 

想像 一 下 ， 如 果 你 的 语音 邮件 系统 有 一 个 选项 ， 可 以 向 公司 里 的 所 有 语音 邮箱 

发 一 个 消息 。 可 能 你 就 有 这 个 选项 。 你 发 现 它 有 用 吗 ? 对 更 大 的 公司 自用 吗 ? 是 否 

有 人 能 向 “所 有 邮箱 ”组 发 邮件 ， 或 者 是 否 限制 这 么 做 ? 

单 播 和 多 播 路 由 可 能 会 加 入 224.0.0.2 组 进行 互相 通信 。ICMP 路 由 器 请 求 报 文 和 路 由 器 通 
告 报 文 可 能 被 分 别 发 往 224.0.0.2(“ 所 有 路 由 器 ”组 ) 和 224.0.0.1(“ 所 有 主机 ”组 )， 而 不 是 受 
限 的 广播 地 址 (255.255.255.255)。 

224.0.0.4 组 支持 在 实现 DVMRP 的 多 播 路 由 器 之 间 的 通信 。 本 地 多 播 组 范围 内 的 其 他 组 被 
类 似 地 指派 给 其 他 路 由 选择 协议 。 

除了 前 256 个 组 外 ， 其 他 组 (224.0.1.0~239.255.255.255) 或 者 被 分 配给 多 个 多 播 应 用 程序 协 
议 ， 或 者 仍然 没有 被 分 配 。 图 12-1 中 有 两 个 例子 ， 网 络 时 间 协 议 (224.0.1.1) 和 SGI- 
Dogfight(224.0.1.2)。 

在 本 章 中 ， 我 们 注意 到 ， 是 主机 上 的 运输 层 发 送 和 接收 多 播 分 组 .尽管 多 播 程序 并 不 知 
道具 体 是 哪个 传输 协议 发 送 和 接收 多 播 数据 报 ， 但 唯一 支持 多 播 的 Internet 传 输 协议 是 UDP，。 


12.2 代码 介绍 


本 章 中 讨论 的 基本 多 播 程序 与 标准 IP 程 序 在 相同 的 文件 里 。 图 12-2 列 出 了 我 们 研究 的 文 
件 。 
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net/if either.h 以 太 网 多 播 数据 结构 和 宏 定 义 
netinet/in.h 其 他 Internet 多 播 数据 结构 
netinet/in var.h Internet £ E E Ii £t A RUZ AE X. 


netinet/ip var.h IP 多 播 数据 结构 ~ 
net/if ethersubr.c LARI S TÉ ERE 
netinet/in.c 组 成 员 国 数 
netinet/ip input.c 输入 多 播 处 理 
netinet/ip output.c 输出 多 播 处 理 


图 12-2 本 章 讨论 的 文件 





12.2.1 全 局 变量 
本 章 介 绍 了 三 个 新 的 全 局 变量 (图 12-3)。 


ether, ipmulticast min | u_char [] 为 IP 预 留 的 最 小 以 人 网 多 播 地 址 


ether ipmulticast max | u_char [] 为 也 预 留 的 最 大 以 大 网 多 播 地 址 
ip mrouter struct socket * | 多 播 选 路 守护 程序 创建 的 指向 揪 口 的 指针 


图 12-3 本 章 引 入 的 全 局 变量 





12.2.2 统计 量 
本 章 讨论 的 程序 更 新 全 局 ipstat 结 构 中 的 几 个 计数 器 。 


被 这 个 系统 转发 的 分 组 数 
不 能 被 系统 转发 的 分 组 数 一 一 系统 不 是 一 个 路 由 器 
由 十 无 法 访问 到 路 由 器 而 无 法 转发 的 分 组 数 





ips. forward 











ips cantforward 


ips noroute 


图 12-4 多 播 处 理 统计 量 
链 路 级 多 播 统计 放 在 ifnet 结 构 中 (图 4-5)， 还 可 能 统计 除 卫 以 外 的 其 他 协议 的 多 播 。 
12.8 ”以太 网 多 播 地 址 


IP 多 播 的 高 效 实现 要 求 IP 充 分 利用 硬件 级 多 播 ， 因 为 如 果 没 有 硬件 级 多 播 ， 就 不 得 不 在 
网 络 上 广播 每 个 多 播 IP 数 据 报 ， 而 每 台 主 机 也 不 得 不 检查 每 个 数据 报 ， 把 那些 不 是 给 它 的 丢 
掉 。 硬 件 在 数据 报到 达 下 层 之 前 ， 就 把 没有 用 的 过 滤 掉 了 。 . 

为 了 保证 硬件 过 滤器 能 正常 工作 ， 网 络 接口 必须 把 IP 多 播 组 目的 地 址 转换 成 网 络 硬件 识 
别 的 链 路 级 多 播 地 址 。 在 点 到 点 网 络 上 ， 如 SLIP 和 环 回 接口 ， 必 须 明 确 给 出 地 址 映射 ， 因 为 
只 能 有 一 个 目的 地 址 。 在 其 他 网 络 上 ， 如 以 太 网 ， 也 需要 有 一 个 明确 地 完成 映射 地 址 的 函数 。 
以 太 网 的 标准 映射 适用 于 任何 使 用 802.3 寻 址 方式 的 网 络 。 

图 4-12 显 示 了 以 太 网 单 播 和 多 播 地 址 的 区 别 : 如 果 以 太 网 地 址 的 高 位 字 节 的 最 低位 是 1， 
则 它 是 一 个 多 播 地 址 ; 否则 ， 它 是 一 个 单 播 地 址 。 单 播 以 太 网 地 址 由 接口 制造 商 分 配 ， 多 播 
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地 址 由 网 络 协 议 动态 分 配 。 
IP 到 以 太 网 地 址 映射 


因为 以 太 网 支持 多 种 协议 ， 所 以 要 采取 措施 分 配 多 播 地址 ， 避 免 溃 突 。 正 EF 管理 以 太 网 多 播 
地 址 分 配 。 丰 EE 把 一 块 以 太 网 多 播 地 址 分 给 IANA 以 支持 人 多 播 。 块 的 地 址 都 以 01:00:5e 开 头 。 
以 00:00:5e 开 头 的 以 太 网 单 播 也 被 分 配给 IANA ， 但 为 将 来 使 用 预 留 。 
图 12-5 显 示 了 从 一 个 DD 类 IP 地 址 构造 出 一 个 以 太 网 多 播 地 址 。 


标识 以 太 网 必须 是 0，[IANA 
多 播 地 址 p 
15 16 31 32 


T ast 


M S " i240 um VAN、 ON QNOD 
~ ; - 


IANA 预 留 的 32 位 D 类 IP 地 址 
以 大 网 前 组 


图 12-5 IP 和 以 太 网 地 址 之 间 的 映射 
图 12-5 显 示 的 映射 是 一 个 多 到 一 的 映射 。 在 构造 以 太 网 地 址 时 ， 没 有 使 用 D 类 耳 地 址 的 高 
位 9 比特 。32 个 由 多 播 组 映射 到 一 个 以 太 网 多 播 地 址 (习题 12.3)。 我 们 将 在 12.14 节 看 到 这 将 如 
何 影响 输入 的 处 理 。 图 12-6 显 示 了 Net/3 中 实现 这 个 映射 的 宏 。 


~ - if_ether.h 
61 #define ETHER,MAP IP MULTICAST(ipaddr, enaddr) \ 
62 /* struct in_addr *ipaddr; */ \ 
63 /* u_char enaddr[6]; */ \ 
64 ( N 
65 (enaddr)[0] = 0x01; \ 
66 (enaddr)[1] = 0x00; «^ 
67 (enaddr)[2] = 0Ox5e; \ 
68 (enaddr)[3] = ((u.char *)ipaddr)[1] & 0x7f; \ 
69 (enaddr)[4] = ((u,char *)ipaddr)[21; ^ 
70 (enaddr)[5] = ((u char *)ipaddr)[3]; \ 
71) if_ether.h 
图 12-6 ETHER MAP IP MULTICASTZ: 
IP 到 以 太 网 多 播映 射 


61-71 ETHER_MAP_IP_MULTICAST 实 现 图 12-5 所 示 的 映射 。ipaddr 指 向 D 类 多 播 地 址 ， 
enaddr 构 造 匹配 的 以 太 网 地 址 ， 用 6 字 节 的 数组 表示 。 该 以 太 网 多 播 地 址 的 前 3 个 字 节 是 
0x01，0x00 和 0x5e， 后 面 跟着 0 比特 ， 然 后 是 D 类 IP 地 址 的 低 23 位 。 


12.4 ether_multi t 


Net/3 为 每 个 以 太 网 接口 维护 一 个 该 硬件 接收 的 以 太 网 多 播 地 址 范围 表 。 这 个 表 定义 了 该 
设备 要 实现 的 多 播 过 滤 。 因 为 大 多 数 以 太 网 设备 能 选择 地 接收 的 地 址 是 有 限 的 ， 所 以 他 层 必 须 
要 准备 丢弃 那些 通过 了 硬件 过 滤 的 数据 报 。 地 址 范围 被 保存 在 ether_multi 结 构 中 (图 12-7): 


272 TCP/IP 详 解 %2: 实现 





147 struct ether multi ( 


148 u_char enm addrlo[6]; /* 
149 u_char enm addrhií6]: /* 
150 struct arpcom *enm ac; /* 
151 u int enm refcount; /* 
152 struct ether multi *enm next; 


153 }; 


low or only address of range */ 
high or only address of range */ 
back pointer to arpcom */ 

no. claims to this addr/range */ 
/* ptr to next ether multi */ 


图 12-7 _ ether_multi 结 构 


1. 以 太 网 多 播 地 址 
147-153 


if ether.h 


if ether.h 


enm_addrlo 和 enm_addrhi 指 定 需要 被 接收 的 以 太 网 多 播 地 址 的 范围 。 当 


enm_addrlo 和 enm_addrhi 相 同时 ， 就 指定 一 个 以 太 网 地 址 。ether_mu1lti 的 完整 列表 
附 在 每 个 以 太 网 接口 的 arpcom 结 构 中 (图 3-26)。 以 太 网 多 播 独立 于 ARP 一 一 使 用 arpcom 结 
构 只 是 为 了 方便 ， 因 为 该 结构 已 经 存在 于 所 有 以 太 网 接口 结构 中 。 


我 们 将 看 到 ， 这 个 范围 的 开头 和 结尾 总 是 相同 的 ， 因 为 在 NeU3 中 ， 进 程 无 法 指 


定 地 址 范围 。 


enm_ac 指 回 相 关 接 口 的 arpcom 结 构 ，enm_refcount 跟 踪 对 ether_rmulti 结 构 的 使 
用 。 当 引用 计数 变 成 0 时 ， 就 释放 arpcom 结 构 。enm_next 把 单个 接口 的 ether_multi 结 
构 做 成 链表 。 图 12-8 显 示 出 ， 有 三 个 ether_multi 结 构 的 链表 附 在 le_softc[0] 上， 这 是 


我 们 以 太 网 接口 示例 的 1fnet 结 构 。 


le softc[0]: 






ifnet() 
arpcomí) 


le softc() 









ether multi() 
01:00:5e:00:01:02 


enm. ac 
enm refcount enm, refcount 
enn next 









ether multi() 


01:00:5e:00:00:02 
01:00:5e:00:00:02 











图 12-8 有 三 个 ether_multi 结 构 的 LANCE 接 口 


在 图 12-8 中 ， 我 们 看 到 : 


ether multi() 







。 接 口 已 经 加 入 了 三 个 组 .很 有 可 能 是 224.0.0.1( 所 有 主机 )、224.0.0.2( 所 有 路 由 器 ) 和 
224.0.1.2(SGI-dogfight)。 因 为 以 太 网 到 下 地 址 的 映射 是 一 到 多 的 ， 所 以 只 看 到 以 太 网 多 
播 地 址 的 结果 ， 无 法 确定 确切 的 IP 多 播 地 址 。 比 如 ， 接 口 可 能 已 经 加 入 了 225.0.0.1、 


225.0.0.2 和 226.0.1.2 组 。 


“有 了 enm_ac 后 向 指针 ， 就 很 容易 找到 链表 的 开始 ， 释 放 某 个 ehter_mu1lti 结 构 ， 无 


需 再 实现 双向 链表 。 


。ether_multi 只 适用 于 以 太 网 设备 。 其 他 多 播 设 备 可 能 有 其 他 实现 。 
图 12-9 中 的 ETHER_LOOKUP_MULTI 宏 ， 搜 索 某 个 ether_multi 结 构 ， 找 到 地 址 范围 。 


2. 以 太 网 多 播 查找 
166-177 


addrlo 和 addrhi 指 定 搜索 的 范围 ，ac 指 向 包含 了 要 搜索 链表 的 arpcom 结 构 。 
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for 循 环 完成 线性 搜索 ， 在 表 的 最 后 结束 ， 或 者 当 enm_addrlo 和 enm_adqdrhi 都 分 别 与 和 
所 提供 的 aaar1o 和 adadqrphi 匹 配 时 结束 。 当 循环 终止 时 ，enm 为 空 或 者 指向 某 个 匹配 的 


ether_multi 结 构 。 


166 #define ETHER_LOOKUP_MULTI (addrlo, addrhi, ac, enm) \ -etherh 
167 /* u_char addrlo[6]; */ \ 
168 /* u_char addrhi[6]; */ \ 
169 /* struct arpcom *ac; */ \ 
170 /* struct ether multi *enm; */ X 
171 ( V 
172 for ((enm) = (ac)-»ac multiaddrs; \ 
173 (enm) !- NULL && \ 
174 (bemp((enm)-»enm addrlo, (addrlo), 6) != 0 || \ 
175 bcmp ( (enm) ->enm_addrhi, (addrhi), 6) != 0); \ 
176 (enm) = (enm)-»enm next); ^ 
177 } 
if ether h 





图 12-9 ETHER LOOKUP MULTIZ: 


12.5 以 太 网 多 播 接收 


从 本 节 以 后 ， 本 章 只 讨论 IP 多 播 。 但是， 在 Net/3 中 ， 也 有 可 能 把 系统 配置 成 接收 所 有 以 
太 网 多 播 分 组 。 虽 然 对 IP 协议 族 没 有 用 ， 但 内 核 的 其 他 协议 族 可 能 准备 接收 这 些 多 播 分 组 。 
发 出 图 12-10 中 的 ioct1 命 令 ， 就 可 以 明确 地 进行 多 播 配 置 。 
BOX 








SIOCADDMULTI | struct ifreq * | ifioctl | 在 接 收 表 里 加 上 多 播 地 址 
SIOCDELMULTI | struct ifreq * | ifioctl | 从 接收 表 里 删 去 多 播 地 址 
图 12-10 多 播 iocti 命 令 


这 两 个 命令 被 1fioct1( 图 12-11) 直 接 传 给 i freq 结 构 (图 6-12) 中 所 指定 的 接口 的 设备 驱 
动 程序 。 





if.c 
440 case SIOCADDMULTI: f 
441 case SIOCDELMULTI: 
442 if (error = suser(p-»p ucred, &p-»p acflag)) 
443 return (error); 
444 if (ifp-»if ioctl -- NULL) 
445 return (EOPNOTSUPP); 
446 return ((*ifp-»if ioctl) (ifp, cmd, data)); ifc 
i 


图 12-11 ifioct1 函 数 : 多 播 命令 
440-446 ”如 果 该 进程 没有 超级 用 户 权限 ， 或 者 如 果 接 口 没有 if_ioct1l 结 构 ， 则 ifioct1 
返回 一 个 错误 ; 否则 ， 把 请 求 直 接 传 给 该 设备 驱动 程序 。 
12.6 in_multi 结 构 


12.4 节 描述 的 以 太 网 多 播 数据 结构 并 不 专用 于 IP; 它们 必须 支持 所 有 内 核 支持 的 任意 协议 
族 的 多 播 活动 。 在 网 络 级 ，IP 维 护 着 一 个 与 接口 相关 的 耳 多 播 组 表 。 
为 了 实现 方便 ， 把 这 个 邢 多 播 表 附 在 与 该 接口 有 关 的 in_ifaddr 结 构 中 。6.5 节 讲 到 ， 这 
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个 结构 中 包含 了 该 接口 的 单 播 地 址 。 除 了 它们 都 与 同一 个 接口 相关 以 外 ， 这 个 单 播 地 址 与 所 
附 的 多 播 组 表 之 间 没 有 任何 关系 。 . 
这 是 Net/3 实 现 的 产品 。 也 可 以 在 一 个 不 接收 IP 单 播 分 组 的 接口 上 ,支持 IP 多 播 组 。 


图 12-12 中 的 ijn_multi 结 构 描 述 了 每 个 IP 多 播 { 接 口 ， 组 } 对 。 





- in var h 
111 struct in multi ( 
112 struct in addr inm addr; /* IP multicast address */ 
113 struct ifnet *inm ifp; /* back pointer to ifnet */ 
114 struct in ifaddr *inm ia; /* back pointer to in ifaddr */ 
115 u int inm refcount; /* no. membership claims by sockets */ 
116 u int inm timer; /* IGMP membership report timer */ 
117 struct in multi *inm next;  /* ptr to next multicast address */ 
n5; in var.h 





图 12-12 in_multi 结 构 


1.IP 多 播 地 址 
111-118 inm_addr 是 一 个 DD 类 多 播 地 址 (如 224.0.0.1， 所 有 主机 组 )。inm_ifp 指 回 相关 接 
只 的 :fnet 结 构 ， 而 inm_ia 指 回 接 口 的 in_ ifaddqr 结 构 。 

只 有 当 系 统 中 的 某 个 进程 通知 内 核 ， 它 要 在 某 个 特定 的 { 接 口 ， 组 } 对 上 接收 多 播 数据 报 
时 ， 才 存在 一 个 in_multi 结 构 。 由 于 可 能 会 有 多 个 进程 要 求 接收 发 往 同 一 个 对 上 的 数据 报 ， 
所 以 inm_refcount 跟 踪 对 该 对 的 引用 次 数 。 当 没有 进程 对 某 个 特定 的 对 感 兴 超时 ， 
inm_refcount 就 变 成 0(，in_multi 结 构 就 被 释放 掉 。 这 个 动作 可 能 会 引起 相关 的 
ether_multi 结 构 也 被 释放 ， 如 果 此 时 它 的 引用 计数 也 变 成 了 0。 

inm_timer 是 第 13 章 描述 的 [GMP 协议 实现 的 一 部 分 ， 最 后 ，inm_next 指 向 表 中 的 下 
一 个 in_multi 结 构 。 

图 12-13 用 接口 示例 le_softc[0] 显 示 了 接口 ， 即 它 的 单 播 地 址 和 它 的 JP 多 播 组 表 之 间 


ifnet: 


le softc[0]: 





ifnet() 
arpcomí) 


le softcí) 


in ifaddr() 
ifa ifp 


ifa next in multi() in multit) in multi() 


224.0.1.2 224.0.0.2 224.0.0.1 
ia next 
ia multiaddrs 


inm refcount inm refcount 
ul ium timer 
in ifaddr: : 7 - 

nme Tnn next 


图 12-13 le 接口 的 一 个 IP 多 播 组 表 
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为 了 清楚 起 见 ， 我 们 已 经 省 略 了 对 应 的 ether_multi 结 构 ( 图 12-34)。 如 果 系 统 有 两 个 
以 太 网 网 卡 ， 第 二 个 可 能 由 le_softc[1] 管 理 ， 还 可 能 有 它 自己 的 附 在 arpcom 结 构 的 多 播 
组 表 。IN_LOOKUP_MULTI 宏 (图 12-14) 搜 索 IP 多 播 表 寻找 某 个 特定 多 播 组 。 

2. IP 多 播 查找 
131-146 IN_LOOKUP_MULTI 在 与 接 蝇 ifp 相 关 的 多 播 组 表 中 查找 多 播 组 addr。， 
IFP_TO_IA 搜 索 Internet 地 址 表 in_ifaddr， 寻找 与 接口 iftp 相 关 的 in_ifaddr 结 构 。 如 果 
IFP_TO_IA 找 到 一 个 接口 ， 则 for 循 环 搜索 它 的 IP 多 播 表 。 循 环 结 束 后 ，inm 为 空 或 指向 匹 
配 的 in_multi 结 构 。 





131 #define IN LOOKUP, MULTI(addr, ifp, inm) \ in var 
132 /* struct in_addr addr; */ \ 
133 /* struct ifnet *ifp; */ \ 
134 /* struct in multi *inm; */ \ 
135 ( \ 
136 struct in ifaddr *ia; ^ 
137 \ 
138 IFP TO IA((ifp), ia); \ 
139 if (ia == NULL) \ 
140 (inm) = NULL; \ 
141 else X 
142 for ((inm) = ia-»ia multiaddrs; \ 
143 (inm) !- NULL && (inm)-»inm addr.s addr != (addr).s addr; \ 
144 (inm) = inm-»inm next) \ ` 
145 continue; \ 
14è: } 
in_var.h 


图 12-14 IN_LOOKUP_MULTI 宏 


12.7 ip _moptions 结 构 
运输 层 通 过 ip_moptions 结 构 包含 的 多 播 选 项 控制 多 播 输出 处 理 。 例 如 ，UDP 调 用 


ip_output 是 : 
error = ip output(m, inp->inp_options, &inp-»inp. route, 
inp-»inp socket-»so options & (SO DONTROUTE!SO BROADCAST), 
inp-»inp moptions); 


在 第 22 章 中 我 们 将 看 到 ，inp 指 向 某 个 internet 协 议 控制 块 (PCB)， 并 且 UDP 为 每 个 由 进程 
创建 的 socket 关 联 一 个 PCB 。 在 PCB 内 ，inp_moptions 是 指向 某 个 ip_moptions 结 构 的 
指针 。 这 里 我 们 看 到 ， 对 每 个 输出 的 数据 报 ， 都 可 以 给 ip_output 传 一 个 不 同 的 
ip_moptions 结 构 。 图 12-15 是 ip_moptions 结 构 的 定义 。 





- - ip var.h 
100 struct ip moptions { 
101 struct  ifnet *imo multicast ifp; /* ifp for outgoing multicasts */ 
102 u char .imo multicast ttl; /* TTL for outgoing multicasts */ 
103 u_char imo multicast, loop; /* 1 -» hear sends if a member */ 
104 u short imo num memberships; /* no. memberships this socket */ 
105 struct in, multi *imo membership[IP, MAX MEMBERSHIPS]; 
106 ):; 

ip var.h 





图 12-15 ip_moptions 结 构 
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多 播 选项 
100-106 ip_output 通 过 ijmo_multicast_ifp 指 向 的 接口 对 输出 的 多 播 数 据 报 进行 
路 。 如 果 imo_multicast_i fp 为 空 ， 就 通过 目的 站 多 播 组 的 默认 接口 (第 14 章 )。 
”imo_multicast_tt1 为 外 出 的 多 播 数据 报 指定 初始 的 IP TTL。 默 认 值 是 1， 把 多 播 数 
据 报 保留 在 本 地 网 络 内 。 

如 果 imo_multicast_loop 是 0， 就 不 回 送 数据 报 ， 也 不 把 数据 报 提交 给 正在 发 送 的 接 
口 ， 即 使 该 接口 是 多 播 组 的 成 员 。 如 果 imo_multicast_loop 是 1， 并 且 如 果 正 在 发 送 的 接 
口 是 多 播 组 的 成 员 ， 就 把 多 播 数 据 报 回 送 给 该 接口 。 

最 后 ， 整 数 imo_num_memberships 和 数组 imo_membership 维 护 与 该 结构 相关 的 { 接 
口 ， 组 } 对 。 所 有 对 该 表 的 改变 都 转告 给 IP， 由 IP 在 所 连 到 的 本 地 网 络 上 宣布 成 员 的 变化 。 
imo_membership 数 组 的 每 个 人 口 都 是 指向 一 个 ijn_multi 结 构 的 指针 ， 该 in_multi 结 构 
附 在 适当 接口 的 in_ifaddr 结 构 上 。 


12.8 多 播 的 插口 选项 
图 12-16 显 示 了 儿 个 IP 级 的 插口 选项 ， 提 供 对 ip_moptions 结 构 的 进程 级 访问 。 





IP MULTICAST IF struct in_addr | ip ctloutput | 为 外 出 的 多 播 选 择 默 认 接口 
IP MULTICAST TTL u char ip ctloutput | 为 外 出 的 多 播 选 择 默 认 的 TTL 


IP MULTICAST LOOP u char ip ctioutput | 人 允许 或 使 能 辐 送 外 出 的 多 播 
IP ADD MEMBERSHIP struct ip mreq | ip ctioutput | 加 入 一 个 多 播 给 
IP DROP MEMBERSHIP | struct ip mreq | ip ctloutput | 离开 -个 多 播 组 








图 12-16 多 播 插 口 选项 


我 们 在 图 8-31 中 看 到 ip_ct1loutput 函 数 的 整体 结构 。 图 12-17 显 示 了 与 改变 和 检索 多 播 
选项 有 关 的 情况 语句 。 





ip_output.c 

448 case PRCO_SETOPT: 
449 switch (optname) { 

s ; ffi othar wet & 
486 case IP MULTICAST IF: 
487 case IP MUILTICAST TTL: 
488 case IP, MULTICAST, LOOP: 
489 case IP, ADD MEMBERSHIP: 
490 case IP DROP. MEMBERSHIP: 
491 error = ip setmoptions(optname, &inp-»inp moptions, m); 
492 break; 
493 freeit: 
494 default: 
495 error = EINVAL; 
496 break; 
497 ) 
498 if (m) 


图 12-17 ip ctloutputERÉi: 多 播 选 项 
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499 (void) m free(m); 
500 break; 
501 case PRCO GETOPT: 
502 switch (optname) { 
539 case IP MULTICAST IF: 
540 case IP MULTICAST,. TTL: 
541 Case IP MULTICAST,. LOOP: 
542 Case IP ADD MEMBERSHIP: 
543 case IP DROP MEMBERSHIP: 
544 error = ip getmoptions(optname, inp-»inp moptions, mp): 
545 break; 
546 default: 
547 error - ENOPROTOOPT; 
548 break; 
549 ) . 
Ip output.c 
图 12-17 (£5) 


486-491 所 有 多 播 选项 都 由 ip_setmoptions 和 ip_getmoptions 图 数 处 理 。 
ip_moptions 结 构 由 引用 传 给 
539-549 ip_getmoptions 和 ip_setmnoptions， 该 结构 与 发 布 toct1 命 令 的 那个 插口 
对 于 PRCO_SETOPT 和 PRCO_GETOPT 两 种 情况 ， 选 项 不 识别 时 返回 的 差错 码 是 
不 一 样 的 。ENOPROTOOPT 是 更 合理 的 选择 。 


12.9 多 播 的 TTL 值 


多 播 的 TTL 值 难以 理解 ， 因 为 它们 有 两 个 作用 。TTL 值 的 基本 作用 ， 如 IP 分 组 一 样 ， 是 限 
制 分 组 在 互联 网 内 的 生存 期 ， 避 免 它 在 网 络 内 部 无 限 地 循环 。 第 二 个 作用 是 ， 把 分 组 限制 在 
管理 边界 所 指定 的 互联 网 的 某 个 区 域内 。 管 理 区 域 是 由 一 些 主观 的 词语 指定 的 ， 如 “这 个 结 
H^. “这 个 公司 ”, “这 个 州 ”等 ， 并 与 分 组 开始 的 地 方 有 关 。 与 多 播 分 组 有 关 的 区 域 叫做 它 
的 辖 域 (scope)。 

RFC 1122 的 标准 实现 把 生存 期 和 辖 域 这 两 个 概念 合并 在 IP 首 部 的 一 个 TTL 值 里 。 当 IP 
TTL 变 成 0 时 ， 除 了 丢弃 该 分 组 外 ， 多 播 路 由 器 还 给 每 个 接口 关联 了 一 个 TTL 闪 值 ， 限 制 在 访 
接口 上 的 多 播 传输 。 一 个 要 在 该 接口 上 传输 的 分 组 必须 具有 大 于 或 等 于 该 接口 浆 值 的 TTL。 
由 于 这 个 原因 ， 多 播 分 组 可 能 会 在 它 的 TTL 到 0 之 前 就 被 丢弃 了 。 

阀 值 是 管理 员 在 配置 多 播 路 由 器 时 分 配 的 ， 这 些 值 确定 了 多 播 分 组 的 辖 域 。 管 理 员 使 用 
的 阀 值 策略 以 及 数据 报 的 源 站 与 多 播 接 口 之 间 的 距离 定义 多 播 数 据 报 的 初始 TTL 值 的 意义 。 

图 12-18 显 示 了 多 种 应 用 程序 的 推荐 TTL 值 和 推荐 的 阐 值 。 

第 一 栏 是 IP 普 部 中 的 ijp_tt1 初 始 值 。 第 三 栏 是 应 用 程序 专用 阐 值 ([Casner 1993). 35 - 
栏 是 与 该 TTL 值 相关 的 推荐 的 辖 域 。 

例如 ， 一 个 要 与 本 地 结 点 外 的 网 络 通信 的 接口 ， 多 播 阀 值 要 被 配置 成 ?22。 所 有 开始 时 
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TTL 为 32( 或 小 于 32) 的 数据 报到 达 该 接口 时 ，TTL 都 小 于 32( 假 定 源 站 和 路 由 器 之 间 至 少 有 一 
跳 )， 所 以 它们 在 被 转发 到 外 部 网 络 之 前 ， 都 被 丢弃 了 一 一 即使 TTL 远 大 于 0。 

TTL 初 始 值 是 128 的 多 播 数据 报 可 以 通过 六 值 为 32 的 结 点 接口 (只 要 它 以 少 于 128~32=96 跳 
到 达 接 口 )， 但 将 被 阐 值 为 128 的 洲际 接口 丢弃 。 





本 地 事件 视频 


本 地 事件 次 频 


IETF 频 道 2 视频 
IETF 频 道 1 视 频 


IETF 频 道 2 首 频 

IETF 频 道 1 音频 

IETF 频 道 2 低 速率 首 频 

[ETF 频 道 1 低 速率 冯 频 ， 锭 域 不 受 限 


图 12-18 IP 多 播 数据 报 的 TTL 值 


12.9.1 MBONE 


Internet 上 有 一 个 路 由 器 子 网 支持 IP 多 播 选 路 。 这 个 多 播 骨干 网 称 为 MBONE,[Casner 
1993] 对 其 作 了 描述 。 它 是 为 了 支持 用 IP 多 播 的 实验 一 一 尤其 是 用 音频 和 视频 数据 流 的 实验 。 
在 MBONE 里 ， 阐 值 限制 了 多 种 数据 流传 播 的 距离 。 在 图 12-18 中 ， 我 们 看 到 本 地 事件 视频 分 
组 总 是 以 TTL 31 开 始 。 阔 值 为 32 的 接口 总 是 阻止 本 地 事件 视频 。 另 外 ，IETE 频 道 1 低速 率 音 
频 ， 只 受到 IP TTL 固 有 的 最 大 255 跳 的 限制 。 它 能 传播 通过 整个 MBONE。MBONE 内 的 路 由 
器 的 管理 员 可 以 选择 阅 值 ， 有 选择 地 接受 或 天 弃 MBONE 数 据 流 。 


12.9.2 扩展 环 搜索 


多 播 TTL 的 另 一 种 用 处 是 ， 只 要 改变 探测 数据 报 的 初始 TTL 值 ,就 能 在 互联 网 上 探测 资源 。 
这 个 技术 叫做 扩展 环 搜 索 (expanding-ring search, [Boggs 1982])。 初 始 TTL 为 0 的 数据 报 只 能 
到 达 与 外 出 接口 相关 的 本 地 网 络 上 的 一 个 资源 ; TTL 为 1， 则 到 达 本 地 子 网 (如 果 存 在 ) 上 的 资 
源 ; TTL 为 2， 则 到 达 相 距 2 跳 的 资源 。 应 用 程序 指数 地 增加 TTL 的 值 ， 迅 速 地 在 大 的 互联 网 上 
探测 资源 。 

RFC 1546 [Partridge、Mendez 和 Milliken 1993] 描述 了 一 种 相关 业务 的 任 播 

(anycasting)。 任 播 依赖 一 组 显著 的 JP 地址 来 表示 更 像 多 播 的 多 个 主机 的 组 。 与 多 揪 

地 址 不 同 ， 网 络 必须 传播 所 有 任 播 的 分 组 ， 直 到 它 被 至 少 一 个 主机 接收 。 这 样 简化 

了 应 用 程序 的 实现 ， 不 再 进行 扩展 环 搜索 。 


12.10 ip_setmoptions 函 数 
ip_setmoptions 函 数 块 包括 一 个 用 来 处 理 各 选项 的 swi tch 语 名。 图 12-19 是 
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ip_setmoptions 的 开始 和 结束 。 下 面 几 节 讨 论 switch 的 语句 体 。 
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650 int ip output.c 
651 ip setmoptions(optname, imop, m) 
652 int optname; 
653 struct ip moptions **imop; 
654 struct mbuf *m; 
655 ( 
656 int error - 0; 
657 u_char loop; 
658 int i; 
659 struct in_addr addr; 
660 struct ip_mreq *mreg; 
661 struct ifnet *ifp; 
662 struct ip_moptions *imo = *imop; 
663 struct route ro; 
664 struct sockađdr_in *dst; 
665 if (imo == NULL) { 
666 /* 
667 * No multicast option buffer attached to the pcb; 
668 * allocate one and initialize to default values. 
669 */ 
670 imo - (struct ip moptions *) malloc(sizeof(*imo), M IPMOPTS, 
671 M, WAITOK); 
672 if (imo -- NULL) 
673 return (ENOBUFS); 
674 *imop - imo; 
675 imo-»imo multicast ifp = NULL; 
676 imo-»imo multicast, ttl - IP DEFAULT MULTICAST TTL; 
677 imo-»imo, multicast loop = IP DEFAULT MULTICAST LOOP; 
678 imo-»imo num memberships = 0; 
679 ) 
680 switch (optname) ( 
/* switch casés */ 
857 default: 
858 error - EOPNOTSUPP; 
859 break; 
860 } 
861 /* 
862 * If all options have default values, no need to keep the mbuf. 
863 */ 
864 if (imo-»imo, multicast,.ifp == NULL && 
865 imo-»imo multicast ttl == IP DEFAULT MULTICAST TTL && 
866 imo-»imo multicast, loop == IP,DEFAULT MULTICAST. LOOP && 
867 imo-»imo, num,memberships == 0) ( 
868 free(*imop, M IPMOPTS); 
869 *imop = NULL; 
870 ) 
871 return (error); . 
872 } . 
ip output.c 


图 12-19 ip setmoptions 国 数 


650-664 第 一 个 参数 ，optname， 指 明正 在 改变 哪个 多 播 参 数 。 第 二 个 参数 ，imop， 
指向 某 个 ip_motions 结 构 的 指针 。 如 果 *imop 不 空 ，ip_setmoptions 修 改 它 所 指向 的 


是 
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结构 。 否 则 ，ip_setmoptions 分 配 一 个 新 的 ip_moptions 结 构 ， 并 把 它 的 地 址 保存 在 
*imop 里 。 如 果 没 有 内 存 了 ，ip_setmoptions 立 即 返回 ENOBUFS。 后 面 的 所 有 错误 都 通 
告 error，error 在 水 数 的 最 后 被 返回 给 调用 方 。 第 三 个 参数 ，m， 指 向 存放 要 改变 选项 数 
所 的 mbuf( 图 12-16 的 第 二 栏 )。 

1. 构造 默认 值 
665-679 当 分 配 一 个 新 的 ip_moptions 结 构 时 ，ip_setmoptions 把 默认 的 多 播 接口 指 
针 初 始 化 为 空 ， 把 默认 TTL 初 始 化 为 1(IP_DEFAULT_MULTICAST_TTL)， 使 能 多 播 数据 报 
的 回 送 ， 并 清除 组 成 员 表 。 有 了 这 些 默 认 值 后 ，ip_output 查 询 路 由 表 选 择 一 个 输出 的 接口 ， 
多 播 被 限制 在 本 地 网 络 中 ， 并 且 ， 如 果 输 出 的 接口 是 日 的 多 播 组 的 成 员 ， 则 系统 将 接收 它 自 
己 的 多 播发 送 。 

2. 进程 选项 
680-860 ip_setmoptions 体 由 一 个 switch 语 句 组 成 ， 其 中 对 每 种 选项 都 有 一 个 case 
语句 。default 情 况 ( 对 未 知 选 项 ) 把 error 设 成 EOPNOTSUPP。 

3. de X EA 4A OK, EAHA 
861-872 switch 语句 之 后 ，ip_setmoptions 检 查 ip_moptions 结 构 。 如 果 所 有 多 播 
选项 与 它们 对 应 的 默认 值 匹配 ， 就 不 再 需要 该 结构 ， 将 其 释放 。ip_setmoptions 返 回 0 或 
公布 的 差错 码 。 


12.10.1 选择 一 个 明确 的 多 播 接口 : IP MULTICAST IF 


当 optname 是 IP_MULTICAST_IF 时 ， 传 给 ip_setmoptions 的 mbuf 中 就 包含 了 多 播 
接口 的 单 播 地 址 ， 该 地 址 指定 了 在 这 个 播 口上 发 送 的 多 播 所 使 用 的 特定 接口 。 图 12-20 是 这 个 
选项 的 程序 。 





ip output.c 
681 case IP MULTICAST IF: 
682 /* 
683 * Select the interface for outgoing multicast packets. 
684 */ 
685 if (m == NULL || m-»m len !- sizeof(struct in addr)) ( 
686 error - EINVAL; 
687 break; 
688 ) 
689 addr = *(mtod(m, struct in_addr *)); 
690 /* 
691 * INADDR ANY is used to remove a previous selection. 
692 * when no interface is selected, a default one is 
693 * chosen every time a multicast packet is sent. 
694 */ 
695 if (addr.s addr == INADDR ANY) { 
696 imo-»imo multicast ifp = NULL; 
697 break; 
698 } 
699 /* 
700 * The selected interface is identified by its local 
701 * IP address. Find the interface and confirm that 
702 * it supports multicasting. 
703 */ 


图 12-20 ip setmoptionsER E: 选择 多 播 输出 接口 
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704 INADDR TO, IFP(addr, ifp); 
705 if (ifp == NULL || (ifp-»if.flags & IFF,.MULTICAST) == 0) ( 
706 error - EADDRNOTAVAIL; 
707 break; 
708 H 
709 imo-»imo multicast ifp - ifp; 
710 break; . 
Ip output.c 
图 12-20 (£&) 
1. 验证 


681-698 如 果 没 有 提供 mbuf， 或 者 mbuf 中 的 数 不 是 一 个 in_addr 结 构 的 大 小 ， 则 
ip_setmoptions 通 告 一 个 EINVAL 差 错 ; 否则 把 数据 复制 到 addr。 如 果 接 口 地 址 是 
INADDR_ANY， 则 丢 充 所 有 前 面 选 定 的 接口。 对 后 面 用 这 个 ijp_moptions 结 构 的 多 播 ， 将 
根据 它们 的 目的 多 播 组 进行 选 路 ， 而 不 再 通过 一 个 明确 命名 的 接口 (图 12-40)。 
2. 选择 默认 接口 

699-710 ”如 果 adar 中 有 地 址 ， 就 由 INADDR_TO_IFP 找 到 匹配 接口 的 位 置 。 如 果 找 不 到 匹 
配 或 接口 不 支持 多 播 ， 就 发 布 EADDRNOTAVAIL。 否 则 ， 匹 配 接口 i fp 成 为 与 这 个 
ip_moptions 结 构 相 关 的 输出 请 求 的 多 播 接 口 。 


12.10.2 选择 明确 的 多 播 TTL: IP_MULTICAST_TTL 


当 optname 是 IP_MULTICRAST_TTL 时 ， 缓 在 中 有 一 个 字 节 指定 输出 多 播 的 IP TTL. xx 
个 TTL 是 ip_output 在 每 个 发 往 相 关 插 口 的 多 播 数据 报 中 插入 的 。 图 12-21 是 该 选项 的 程序 。 


ip output.c 
711 case IP MULTICAST TTL: 
712 /* 
713 * Set the IP time-to-live for outgoing multicast packets. 
714 */ 
715 if (m == NULL || m-»m len !- 1) ( 
716 error - EINVAL; 
717 break; 
718 ) 
719 imo-»imo multicast ttl = *(mtodí(m, u_char *)); 
720 break; 


ip output.c 
图 12-21 ip_setmoptions t: 选择 明确 的 多 播 TTL 
验证 和 选项 默认 的 TTL 
711-720 ”如 果 缓 存 中 有 一 个 字 节 的 数据 ， 就 把 它 复制 到 imo_multicast_ttl。 否 则 ， 发 
布 EINVAL。 


12.10.3 选择 多 播 环 回 : IP MULTICAST LOOP 


通常 ， 多 播 应 用 程序 有 两 种 形式 .: 

。 一 个 系统 内 一 个 发 送 方 和 多 个 远程 接收 方 的 应 用 程序 。 这 种 配置 中 ， 只 有 一 个 本 地 进程 
向 多 播 组 发 送 数 据 报 ， 所 以 无 需 回 送 输 出 的 多 播 。 这 样 的 例子 有 多 播 选 路 守护 进程 和 会 
。 一 个 系统 内 的 多 个 发 送 方 和 接收 方 。 必 须 回 送 数据 报 ， 确 保 每 个 进程 接收 到 系统 其 他 发 
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送 方 的 传送 。 

IP_MULTICAST_LOOP 选 项 (图 12-22) 为 jp_moptions 结构 选择 回 送 策略 。 
ip_output.c 

721 Case IP MULTICAST LOOP: 

722 /* 

723 * Set the loopback flag for outgoing multicast packets. 

724 * Must be zero or one. 

725 */ 

726 if (m == NULL || m-»m len !- 1 |I 

727 (loop = *(mtod(m, u_char *))) > 1) ( 

728 error - EINVAL; 

729 break; 

730 } 

731 imo->imo_multicast_loop = loop; 

732 break; 
ip output.c 


图 12-22 ip_setmoptions k: 选择 多 播 环 回 
验证 和 选择 环 回 策略 
721-732 如 果 m 为 空 ， 或 者 没有 1 字 节 数据 ， 或 者 该 字 节 不 是 0 或 1， 就 发 布 EINVAL。 否 则 ， 
把 该 字 节 复制 到 imo_multicast_loop。0 指 明 不 要 把 数据 报 回 送 ，1 人 允许 环 回 机 制 。 
图 12-23 显 示 了 多 播 数 据 报 的 最 大 辖 域 值 之 间 的 关系 : imo multicast ttl4d 
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图 12-23 环 回 和 TTL 对 多 播 辖 域 的 影响 


图 12-23 显 示 了 根据 发 送 的 环 回 策略 ， 指 定 的 TTL 值 接收 多 播 分 组 的 接口 的 设置 。 如 果 硬 
件 接收 自己 的 发 送 ， 则 不 管 采用 什么 环 回 策略 ， 都 接收 分 组 。 数 据 报 可 能 通过 选 路 穿 过 该 网 
络 ， 并 到 达 与 系统 相连 的 其 他 接口 (习题 12.6)。 如 果 发 送 系统 本 身 是 一 个 多 播 路 由 器 ， 输 出 的 
分 组 可 能 被 转发 到 其 他 接口 ， 但 是 ， 只 有 一 个 接口 接受 它们 进行 输入 处 理 (第 14 章 )。 


12.41 加 入 一 个 IP 多 播 组 
除了 内 核 自动 加 入 (图 6-17) 的 卫 所 有 主机 组 外 , 其 他 组 成 员 是 由 进程 明确 发 出 请 求 产 生 的 。 


加 入 (或 离开 ) 多 播 组 选项 比 其 他 选项 更 多 使 用 。 必 须 修改 接口 的 jn_multi 表 以 及 其 他 链 路 层 


多 播 结 构 ， 如 我 们 在 以 太 网 中 讨论 的 ether_multi。 
当 optname 是 IP_ADDMEMBERSHIP 了 时 ，mbuf 中 的 数据 是 一 个 如 图 12-24 所 示 的 


ip_mreq 结 构 。 





in.h 
148 struct ip mreg { 
149 struct in, addr imr multiaddr; /* IP multicast address of group */ 
150 struct in, addr imr interface; /* local IP address of interface */ 
151 ); . 
in.h 





图 12-24 ip_mreq 结 构 


148-151 
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imr_multiaddr 指 定 多 播 组 ，imr_interface 用 相关 的 单 播 IP 地 址 指定 接口 。 


ip_mreq 结 构 指 定 { 接 口 ， 组 } 对 表示 成 员 的 变化 。 
图 12-25 显 示 了 加 入 和 离开 与 我 们 的 以 太 网 接口 例子 相关 的 多 播 组 时 ， 所 调用 的 函数 。 





getsockopt 












ip.setmoptións 





first join request 








SIOCDELMULTI 





SIOCADDMULTI 


ettier addmu 





图 12-25 加 入 和 离开 一 个 多 播 组 


我 们 从 ip_setmoptions( 图 12-26) 的 IP_ADD_MEMBERSHIP 情 况 开 始 ， 在 这 里 修改 
ip_moptions 结 构 。 然 后 我 们 跟踪 请 求 通过 IP 层 、 以 太 网 驱动 程序 ， 一 直到 物理 设备 一 一 在 
这 里 ， 是 LANCE 以 太 网 网 卡 。 





733 
734 
735 
736 
737 
738 
739 
740 
741 
742 
743 
744 
745 
746 
747 
748 
749 
750 
751 
752 
753 
754 
755 


ip output.c 


case IP,.ADD MEMBERSHIP: 


/* 
* Add a multicast group membership. 
* Group must be a valid IP multicast address. 


*/ 

if (m == NULL || m-»m len !- sizeof(struct ip mreq)) ( 
error = EINVAL; 
break; 


) 
mreq - mtod(m, struct ip mreq *); 


if (!IN MULTICAST(ntohl(mreg-»imr multiaddr.s, addr))) ( 
error - EINVAL; 
break; 

) 

/[* 


* If no interface address was provided, use the interface of 
* the route to the given multicast address. 


*/ 

if (mreq-»imr interface.s addr == INADDR ANY) ( 
ro.ro rt - NULL; 
dst - (struct sockaddr in *), &ro.ro dst; 


dst-»sin len = sizeof(*dst); 
dst-»sin, family = AF, INET; 


图 12-26 ip setmoptionstBZÉ: 加 入 一 个 多 播 组 
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756 dst->sin_addr = mreq-»imr, multiaddr; 
757 rtalloc(&ro); 
758 if (ro.ro rt == NULL) ( 
759 error - EADDRNOTAVAIL; 
760 break; 
761 ) 
762 ifp = ro.ro rt-»rt ifp; 
763 rtfree(ro.ro rt); 
764 ) else ( 
765 INADDR TO, IFP(mreq-»imr interface, ifp); 
766 } 
767 /* 
768 * See if we found an interface, and confirm that it 
769 * supports multicast. 
770 */ 
771 if (ifp == NULL || (ifp-»if flags & IFF MULTICAST) == 0) ( 
772 error = EADDRNOTAVAIL; 
773 break; 
774 ) 
775 /* 
776 * See if the membership already exists or if all the 
717 * membership slots are full. 
778 */ 
779 for (i = 0; i < imo-»imo num memberships; ++i) { 
780 if (imo-»imo membership[i]-»inm ifp == ifp && 
781 imo-»imo, membership[i]-»inm addr.s. addr 
782 == mreq-»imr multiaddr.s, addr) 
783 break; 
784 ) 
785 if (i < imo-»imo num memberships) { 
786 error - EADDRINUSE; 
787 break; 
788 } ， 
789 if (i == IP MAX MEMBERSHIPS) ( 
790 error - ETOOMANYREFS; 
791 break; 
792 ) 
793 /[* 
794 * Everything looks good; add a new record to the multicast 
795 * address list for the given interface. 
796 */ 
797 if ((imo-»imo membership[i] = 
798 in addmulti(&mreq-»imr multiaddr, ifp)) == NULL) 0 
799 error - ENOBUFS; 
800 break; 
801 H 
802 -«imo-»imo num memberships; 
803 break; ， 
-一 一” ————————————————————— —— ip output.c 
图 12-26 (£X) 
1. 验证 


733-746 ip_setmoptions 从 验证 该 请 求 开 始 。 如 果 没 有 传 给 mbuf， 或 缓存 的 大 小 不 对 ， 
或 结构 的 地 址 (imr_multiaddr) 不 是 一 个 多 播 组 地 址 ， 则 ip_setmoptions 发 布 ENIVAL。 
Mreq 指 向 有 效 ijp_mreq 地 址 。 

2. 找到 接口 
747-774 如果 接 口 的 单 播 地 址 (imr_interface) 是 INADDR_ANY， 则 ip_setmoptions 
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必须 找到 指定 组 的 默认 接口 。 该 多 播 组 构造 一 个 oute 结 构 ， 作 为 目的 地 址 ， 并 传 给 
rtalloc， 由 rtalloc 为 多 播 组 找到 一 个 路 由 器 。 如 果 没 有 路 由 器 可 用 ， 则 请 求 失败 ， 产 生 
错误 EADDRNOTAVAIL。 如 果 找 到 路 由 器 ， 则 在 ifp 中 保存 指向 路 由 器 外 出 接口 的 指针 ， 而 
不 再 需要 路 由 器 入 口 ， 将 其 释放 。 

如 果 imr_interface 不 是 INADDR_ANY， 则 请 求 一 个 明确 的 接口 。INADDR_TO_IFP 
宏 用 请 求 的 单 播 地 址 搜索 接口 。 如 果 没 有 找到 接口 或 者 它 支持 多 播 ， 则 请 求 失败 ， 产 生 错 误 
EADDRNOTAVAIL. 

8.5 节 描述 了 route 结 构 ，19.2 节 描述 了 rtalloc 函 数 ， 第 14 章 描述 了 用 路 由 选 

择 表 选择 多 播 接口 。 

3. 已 经 是 成 员 了 ? 
775-792 对 请 求 做 的 最 后 检查 是 检查 imo_membership 数 组 ， 看 看 所 选 接口 是 否 已 经 是 请 
求 组 的 成 员 。 如 果 for 循 环 找到 一 个 匹配 ， 或 者 成 员 数组 为 空 ， 则 发 布 EADDRINUSE 或 
ETOOMANYREFS， 并 终止 对 这 个 选项 的 处 理 。 

4. 加 入 多 播 组 
793-803 ”此 时 ， 请 求 似乎 是 合理 的 了 。in_addmulti 安 排 耻 开始 接收 该 组 的 多 播 数据 报 。 
in_addmulti 返 回 的 指针 指向 一 个 新 的 或 已 存在 的 in_multi 结 构 ( 图 12-12)， 该 结构 位 于 
接口 的 多 播 组 表 中 。 这 个 结构 被 保存 在 成 员 数组 中 ， 并 且 把 数组 的 大 小 加 1。 


12.11.1 in_addmulti 函 数 


in_addmulti 和 相应 的 in_qdelmulti( 图 12-27 和 图 12-36) 维 护 接口 已 加 入 多 播 组 的 表 。 
加 入 请 求 或 者 在 接口 表 中 增加 一 个 新 的 in_multi 结 构 ， 或 者 增加 对 某 个 已 有 结构 的 引用 次 
数 。 





in.c 

469 struct in multi * 

470 in addmulti(ap, ifp) 

471 struct in_addr *ap; 

472 struct ifnet *ifp; 

473 ( 

474 struct in multi *inm; 

475 struct ifreq ifr; 

476 struct in, ifaddr *ia; 

477 int s = splnet(); 

478 /* 

479 * See if address already in list. 

480 */ 

481 IN LOOKUP MULTI(*ap, ifp, inm); 

482 if (inm !- NULL) ( 

483 /* 

484 * Found it; just increment the reference count. 

485 */ 

486 **inm-»inm refcount; 

487 ) else ( . 
in.c 





图 12-27 in addmultit&üSi: 前 半 部 分 


1. 已 经 是 一 个 成 员 了 
469-487 ip_setnoptions 已 经 证 实 ap 指向 一 个 D 类 多 播 地 址 ，ifp 指 向 一 个 能 够 多 播 的 
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接口 。IN_LOOKUP_MULTI( 图 12-14) 确 定 接口 是 否 已 经 是 该 组 的 一 个 成 员 。 如 果 是 ， 则 
in_addmulti 更 新 引用 计数 后 返回 。 
如 果 接 口 还 不 是 该 组 的 成 员 ， 则 执行 图 12-28 中 的 程序 。 





487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 
500 
501 
502 
503 
504 
505 
506 
507 
508 
509 
510 
511 
512 
513 
514 
515 
516 
517 
518 
519 
520 
521 
522 
523 
524 
525 
526 
527 
528 
529 
530 } 





) else ( 
/* 
* New address; 


allocate a new multicast record 


* and link it into the interface's multicast list. 


*/ 
inm = 
if (inm == NULL) ( 
Splix(s): 
return (NULL); 
) 
inm-»inm addr = *ap; 
inm-»inm ifp = ifp; 
inm-»inm refcount = 1; 
IFP TO IA(ifp, ia); 
if (ia == NULL) ( 
free(inm, M IPMADDR); 
splx(s); 
return (NULL); 
} 
inm->inm ia = 
inm->inm next = 
ia->ia_multiaddrs = 
/* 
* Ask the network driver to update 


ia; 
ia-»ia multiaddrs; 
inm; 


(struct in, multi *) malloc(sizeof(*inm), 
M. IPMADDR, 


M, NOWAIT) ; 


its multicast reception 


* filter appropriately for the new address. 


*/ 


((struct sockaddr in *) &ifr.ifr addr)-»sin family - AF INET; 


((struct sockaddr in *) &ifr.ifr addr)-»sin, addr = 


*ap; 


if ((ifp-»if  ioctl == NULL) || 
(*ifp-»if, ioctl) (ifp, SIOCADDMULTI, (caddr t) & ifr) != 0) 
ia-»ia multiaddrs = inm-»inm next; 
free(inm, M IPMADDR); 
splx(s); 
return (NULL); 
} 
/* 


* Let IGMP know that we have joined a new IP multicast group. 


*/ 

igmp. joingroup(inm); 
) 
Splx(s); 
return (inm); 


图 12-28 in addmultirZk: 后 半 部 分 


2. 更 新 im_multi 表 | 
487-509 ”如 果 接口 还 不 是 成 员 ， 则 in_addmulti 分 配 并 初始 化 一 个 新 的 in_multi 结 构 ， 
把 该 结构 播 到 接口 的 in_ifaadr( 图 12-13) 结 构 中 ia_multiaddqrs 表 的 前 端 。 

3. 更 新 接口 ， 通 告 变 化 
510-530 ”如 果 接 口 驱 动 程序 已 经 定义 了 一 个 1f_ioct1 函 数 ， 则 in_addmulti 构造 一 个 


in.c 


1 


in.c 
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包含 了 该 组 地 址 的 ifreq 结 构 (图 4-23)， 并 把 SIOCRADDMULTI 请 求 传 给 接口 。 如 果 接 口 拒绝 

该 请 求 ， 则 把 in_mu1lti 结 构 从 链表 中 断 开 ， 释 放 掉 。 最 后 ，in_addmulti 调 用 

igmp_joingroup， 把 成 员 变 化 信息 传播 给 其 他 主机 和 路 由 器 。 
in_addmulti 返 回 一 个 指针 ， 该 指针 指向 in_multi 结 构 ， 或 者 如 果 出 错 ， 则 为 空 。 


12.11.2 siioctldlloioctlijÉ: SIOCADDMULTI 和 SIOCDELMULTI 


SLIP 和 环 回 接口 的 多 播 组 处 理 很 简单 : 除了 检查 差错 外 ， 不 做 其 他 事情 。 图 12-29 显 示 了 
SLIP 处 理 。 





673 case SIOCADDMULTI: if_sl.c 
674 case SIOCDELMULTI: 
675 ifr = (struct ifreq *) data; 
676 if (ifr == 0) ( 
677 error - EAFNOSUPPORT; /* XXX */ 
678 break; 
679 } 
680 Switch (ifr-»ifr addr.sa, family) { 
681 case AF INET: 
682 break; 
683 default: 
684 error - EAFNOSUPPORT; 
685 break; 
686 } 
687 break; 
if_sl.c 
图 12-29 slioct1i 函 数 : 多 播 处 理 
673-687 不 管 请 求 为 空 还 是 不 适用 于 AF_INET 协 议 族 ， 都 返回 EAFNOSUPPORT。 
图 12-30 显 示 了 环 回 处 理 。 

152 case SIOCADDMULTI: if-loop.e 
153 case SIOCDELMULTI: 
154 ifr - (struct ifreq *) data; 
155 if (ifr == 0) ( 
156 error - EAFNOSUPPORT; /* XXX */ 
157 break; 
158 ) | 
159 switch (ifr-»ifr addr.sa family) ( 
160 case AF INET: 
161 break; 
162 default: 
163 error - EAFNOSUPPORT; 
164 break; 
165 } 
166 break; . 

if loop.c 





图 12-30 1lioct1 函 数 : 多 播 处 理 


152-166 环 回 接口 的 处 理 等 价 于 图 12-29 中 SLIP 的 程序 。 不 管 请 求 为 空 还 是 不 适用 于 
AF_INET 协 议 族 ， 都 返回 EAFNOSUPPORT。 
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12.11.3 leiocti 函 数 : SIOCADDMULTI 和 SIOCDELMULTI 


在 图 4-2 中 ， 我 们 讲 到 LANCE 以 太 网 驱动 程序 的 leioctl 和 if_ioct1 函 数 。 图 12-31 是 
处 理 sSITOCADDMULTI 和 SIOCDELMULTI 的 程序 。 


657 case SIOCADDMULTI: if-le.c 
658 case SIOCDELMULTI: 
659 /* Update our multicast list  */ 
660 error = (cmd == SIOCADDMULTI) ? 
661 ether addmulti((struct ifreq *) data, &le-»sc, ac) : 
662 ether delmulti((struct ifreq *) data, &le-»sc ac); 
663 if (error -- ENETRESET) ( 
664 /* 
665 * Multicast list has changed; set the hardware 
666 * filter accordingly. 
667 */ 
668 lereset(ifp-»if unit); 
669 error - 0; 
670 } 
671 break; 
if le.c 


图 12-31 leioct1 函 数 : 多 播 处 理 


657-671 1leioct1 把 增加 和 删除 请 求 直 接 传 给 ether_addmu1lLti 或 ether_delmu1ti 力 
数 。 如 果 请 求 改变 了 该 物理 硬件 必须 接收 的 了 下 多 播 地 址 集 ， 则 两 个 国 数 都 返回 ENETRESET。 
如 果 发 生 了 这 种 情况 ， 则 1eioct1 调 用 lereset， 用 新 的 多 播 接收 表 重 新 初始 化 该 硬件 。 
我 们 没有 显示 lereset， 因 为 它 是 LANCE 以 太 网 硬件 专用 的 。 对 多 播 来 说 ， 
lereset 安 排 硬件 接收 所 有 如 址 到 ether_multi 中 与 该 接口 相关 的 多 播 地 址 的 帧 。 
如 果 多 播 表 中 的 每 个 入 口 是 一 个 地 址 ， 则 LANCE 驱 动 程序 采用 散 列 机 制 。 散 列 程序 
使 硬件 可 以 有 选择 地 接收 分 组 。 如 果 驱 动 程序 发 现 某 个 入 口 是 一 个 地 址 范围 ， 它 废 
除 散 列 策略 ， 配 置 硬件 接收 所 有 多 播 分 组 。 如 果 驱 动 程序 必须 回 到 接收 所 有 以 太 网 
多 播 地 址 的 状态 ，lereset 就 在 返回 时 把 IFP_ALLMULTI 标 志 位 置 位 。 


12.11.4 ether addmultidci 


所 有 以 太 网 驱动 程序 都 调用 ether_adamulti 函 数 处 理 SIOCADDMULTI 请 求 。 这 个 函 
数 把 IP D 类 地 址 映射 到 合适 的 以 太 网 多 播 地 址 (图 12-5) 上 ， 并 更 新 ether_multi 表 。 图 12-32 
是 ether_multi 消 数 的 前 半 部 。 

1. 初始 化 地 址 范围 
366-399 首先 ，ether._addmulti 初 始 化 addr1o 和 addrhi (两 者 都 是 六 个 无 符号 字符 ) 
中 的 多 播 地 址 范围 。 如 果 所 请 求 的 地 址 来 自 AF_UNSPEC 族 ，ether_addmulti 假 定 该 地 址 
是 一 个 明确 的 以 太 网 多 播 地 址 ， 并 把 它 复 制 到 addrl1o 和 addrhi 中 。 如 果 地 址 属于 AF_INET 
族 ， 并 且 是 INADDR_ANY (0.0.0.0), ether_addmulti 把 adadr1lo 初 始 化 成 
ether_ipmulticast_min， 把 addrhi 初 始 化 成 ether_ipmulticast_max。 这 两 个 以 
太 网 地 址 常量 定义 为 : 

u_char ether ipmulticast miní6] 

u char ether, ipmulticast, max[6] 


{ 0x01, 0x00, Ox5e, 0x00, 0x00, 0x00 ); 
{ 0x01, 0x00, 0x5e, 0x7f, Oxff, Oxff ); 


i H 
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366 int if. ethersubr.c 
367 ether addmulti(ifr, ac) 
368 struct ifreq *ifr; 
369 struct arpcom *ac; 
370 ( 
371 struct ether multi *enm; 
372 struct sockaddr in *sin; 
373 u_char  addrlo[61]; 
374 u_char  addrhi[6]:; 
375 int S = splimp(): 
376 switch (ifr-»ifr addr.sa family) ( 
377 case AF UNSPEC: 
378 bcopy(ifr-»ifr addr.sa data, addrlo, 6); 
379 bcopy(addrlo, addrhi, 6); 
380 break; 
381 case AF INET: 
382 sin = (struct sockaddr in *) &(ifr-»ifr addr); 
383 if (sin-»sin,addr.s addr == INADDR, ANY) ( 
384 /* 
385 * An IP address of INADDR,ANY means listen to all 
386 * of the Ethernet multicast addresses used for IP. 
387 * (This is for the sake of IP multicast routers.) 
388 */ 
389 bcopy (ether ipmulticast, min, addrlo, 6); 
390 bcopy (ether ipmulticast max, addrhi, 6); 
391 ) else ( 
392 ETHER, MAP IP MULTICAST(&sin-»sin addr, addrlo); 
393 bcopy(addrlo, addrhi, 6); 
394 ) 
395 break; 
396 default: 
397 splx(s); 
398 return (EAFNOSUPPORT); 
399 ) 
if ethersubr.c 


图 12-32 ether addmultiiÉ: 前 一 半 


与 etherbroadcastaddr(4.3 节 ) 一 样 ， 这 是 一 个 很 方便 地 定义 一 个 48 bit 常 量 

IP 多 播 路 由 器 必须 监听 所 有 IP 多 播 。 把 组 指定 为 TINADDR_ANY， 被 认为 是 请 求 加 入 所 有 
IP 多 播 组 。 在 这 种 情况 下 ， 所 选择 的 以 太 网 地 址 范围 跨越 了 分 配给 IANA 的 整个 IP 多 播 地 址 
H. 

3 mrouted (8)* PRF JF Ab 3j. 5) 2 4 dk c 85 2 da S fp NH, CA 
INADDR, ANY Ak —A-SIOCADDMULTIik £. 
ETHER_MRP_IP_MULTICRAST 把 其 他 特定 的 卫 多 播 组 映射 到 合适 的 以 太 网 多 播 地 址 。 当 

发 生 EAFNOSUPPORT 错 误 时 ， 将 拒绝 对 其 他 地 址 族 的 请 求 。 
尽管 以 太 网 多 播 表 支持 地 址 范围 ， 但 是 除了 列举 出 所 有 地 址 外 ， 进 程 或 内 核 无 法 对 某 个 
特定 范围 提出 请 求 ， 因 为 总 是 把 addr1lo 和 addrhi 设 成 同一 值 。 
ether_addmulti 的 第 二 部 分 ， 显 示 如 图 12-33， 证 实地 址 范围 ， 并 且 ， 如 果 该 地 址 是 
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新 的 ， 就 把 它 加 入 表 中 。 








108 7* | if ethersubr.c 
: 401 * Verify that we have valid Ethernet multicast addresses. 
402 */ 
403 if ((addrlo[0] & 0x01) != 1 || (addrhi[0O] & 0x01) !- 1) ( 
404 splx(s); 
405 return (EINVAL); 
406 ) 
407 /* 
408 * See if the address range is already in the list. 
409 */ 
410 ETHER LOOKUP MULTI (addrlo, addrhi, ac, enm); 
411 if (enm != NULL) ( 
412 . /* 
413 * Found it; just increment the reference count. 
414 */ 
415 *-enm-»enm refcount; 
416 spix(s); 
417 return (0); 
418 } 
419 /* 
420 * New address or range; malloc a new multicast record 
421 * and link it into the interface's multicast list. 
422 */ 
423 enm - (struct ether multi *) malloc(sizeof(*enm), M IFMADDR, M NOWAIT); 
424 if (enm == NULL) ( 
425 Splx(s); 
426 return (ENOBUFS); 
427 ) 
428 bcopy (addrio, enm-»enm addrlo, 6); 
429 bcopy (addrhi, enm-»enm addrhi, 6); 
430 enm-»enm ac = ac; 
431 enm-»enm refcount = 1; 
432 enm-»enm next = ac-»ac multiaddrs; 
433 ac-»ac multiaddrs - enm; 
454 ac-»ac multicnt4*; 
435 splx(s); 
436 /* E 
437 * Return ENETRESET to inform the driver that the list has changed 
438 * and its reception filter should be adjusted accordingly. 
439 */ ~ 
440 return (ENETRESET); 
和 if ethersubr.c 
图 12-33 ether addmultimX: 后 一 半 
2. 已 经 在 接收 


400-418 ether_addmulti 检 查 高 地 址 和 低地 址 的 多 播 比特 位 (图 4-12)， 保 证 它们 是 真正 
的 以 太 网 多 播 地址 。ETHER_LOOKUP_MULTI( 图 12-9) 确 定 硬件 是 否 已 经 对 指定 的 地 址 开始 监 
听 。 如 果 是 ， 则 增加 匹配 的 ether- inulti 结 构 中 的 引用 计数 (enm_refcount)， 并 且 
ether_adqdmulti 返 回 0。 

3. $éfether multi ÉK 
419-441 如果 这 是 一 个 新 的 地 址 范围 ， 则 分 配 并 初始 化 一 个 新 的 echer_multi 结 构 ， 把 
它 链 到 接口 arpcom 结 构 (图 12-8) 中 的 ac_multiaddrs 表 上 。 如 果 ether_adqmulti 返 回 
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ENETRESET， 则 调用 它 的 设备 驱动 程序 就 知道 多 播 表 被 改变 了 ， 必 须 更 新 硬件 接收 过 滤器 。 
图 12-34 显 示 在 LANCE 以 太 网 接口 加 入 所 有 主机 组 后 ，ip_moptions、in_multi 和 和 
ether_multi 结 构 之 间 的 关系 。 
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图 12-34 多 播 数据 结构 的 整体 图 


12.12 离开 一 个 IP 多 播 组 


通常 情况 下 ， 离 开 一 个 多 播 组 的 步骤 是 加 入 一 个 多 播 组 的 步骤 的 反 序 。 更 新 
ip_moptions 结 构 中 的 成 员 表 、IP 接 口 的 in_multi 表 和 设备 的 ether_multi 表 。 首 先 ， 
我 们 回 到 ip_setmoptions 中 的 IP_DROP_MEMBERSHIP 情 况 语句 ， 如 图 12-35 所 示 。 
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ip output.c 


case IP. DROP. MEMBERSHIP: 


/* 
* Drop a multicast group membership. 
* Group must be a valid IP multicast address. 
*/ 
if (m -- NULL || m-»m len != sizeof(struct ip mreq)) ( 
error - EINVAL; 
break; 
) 
mreq - mtod(m, struct ip mreq *); 
if (!IN MULTICAST (ntohl (mreq-»imr, multiaddr.s addr))) ( 
error - EINVAL; 
break; 
} 
/* 
* If an interface address was specified, get a pointer 
* to its ifnet structure. 


*/ 
if (mreq-»imr interface.s addr == INADDR ANY) 
ifp = NULL; 
else ( 


INADDR, TO IFP(mreq-»imr interface, ifp); 


[812-35 ip setmoptionsPASÉ: 离开 一 个 多 播 组 


292 TCP/IPif££ X2: XX 


826 if (ifp == NULL) ( 
827 error - EADDRNOTAVAIL; 
828 break; 
829 ) 
830 ) 
831 /* 
832 * Find the membership in the membership array. 
833 */ 
834 for (i = 0; i < imo-»imo num memberships; ++i) ( 
835 if ((ifp == NULL |l 
836 imo-»imo, membership[i]-»-inm ifp == ifp) && 
837 imo-»imo membership[i]-»inm,addr.s, addr == 
838 mreg-»imr multiaddr.s addr) 
839 break; 
840 ) 
841 if (i == imo-»imo num memberships) ( 
842 error - EADDRNOTAVAIL; 
843 break; 
844 H 
845 /* 
846 * Give up the multicast address record to which the 
847 * membership points. 
848 */ 
849 in delmulti (imo-»imo, membership[il); 
850 /* 
851 * Remove the gap in the membership array. 
852 */ 
853 for (++i; i < imo-»-imo num memberships; ++i) 
854 imo-»imo, membership[i - 1] = imo-»imo membership[i]l; 
855 --imo-»imo, num memberships; 
856 break; . 
tp output.c 
图 12-35 (4) 
1. 验证 


804-830 存储 器 缓存 中 必然 包含 一 个 jp_mreq 结 构 ， 其 中 的 ijmr_multiaddr 必 须 是 一 个 
多 播 组 ， 而 且 必 须 有 一 个 接口 与 单 播 地 址 imr_interface 相 关 。 如 果 这 些 条 件 不 满足 ， 则 
发 布 EINVAL 和 EADDRNOTAVAIL 错 误 信 息 ， 继 续 到 该 switch 语 句 的 最 后 进行 处 理 。 

2. 删除 成 员 引 用 
831-856 ”for 循环 用 请 求 的 {接口 ， 组 } 对 在 组 成 员 表 中 寻找 一 个 in_multi 结 构 。 如 果 疫 
有 找到 ， 则 发 布 EADDRNOTAVAIL 错 误 人 信息。 如 果 找 到 了 ， 则 in_delmulti 更 新 in_multi 
表 ， 并 且 第 二 个 for 循 环 把 成 员 数 组 中 不 用 的 入 口 删 去 ， 把 后 面 的 人口 向 前 移动 。 数 组 的 大 


小 也 被 相应 更 新 。 
12.12.1 in delmulti 函 数 


因为 可 能 会 有 多 个 进程 接收 多 播 数 据 报 ， 所 以 调用 in_delmulti( 图 12-36) 的 结果 是 ， 
当 对 in_multi 结 构 没有 引用 时 ， 只 离开 指定 的 多 播 组 。 

更 新 in_multi 结 构 
534-567 in_delmulti 一 开始 就 减少 in_multi 结 构 的 引用 计数 ， 如 果 该 计数 非 零 ， 则 
返回 。 如 果 该 计数 减 为 0， 则 表明 在 指定 的 { 接 口 ， 组 } 对 上 ， 没 有 其 他 进程 等 待 多 播 数据 报 。 
调用 igmp_leavegroup， 但 该 函数 不 做 任何 事情 ， 我 们 将 在 13.8 节 中 看 到 。 

fo 循环 遍历 in_multi 结 构 的 链表 ， 找 到 匹配 的 结构 。 
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- in.c 
534 int 
535 in, delmulti (inm) 
536 struct in multi *inm; 
537 { 
538 struct in, multi **p; 
539 struct ifreq ifr; 
540 int S - splnet(); 
541 if (--inm-»inm refcount == 0) ( 
542 /* 
543 * No remaining claims to this record; let IGMP know that 
544 * we are leaving the multicast group. 
545 */ 
546 igmp leavegroup(inm); 
547 /* 
548 * Unlink from list. 
549 */ 
550 for (p = &inm-»inm ia-»ia multiaddrs; 
551 *p !- inm; 
552 p = &(*p)-»inm next) 
553 continue; 
554 *p - (*p)-»inm next; 
555 /* 
556 * Notify the network driver to update its multicast reception 
557 * filter. 
558 */ 
559 ((struct sockaddr in *) &(ifr.ifr addr))-»sin family = AF_INET; 
560 ((struct sockaddr in *) &lifr.ifr addr))-»sin addr = 
561 inm-»inm, addr; 
562 (*inm-»inm ifp-»if ioctl) (inm-»inm,ifp, SIOCDELMULTI, 
563 (caddr t) & ifr); 
564 free(inm, M IPMADDR); 
565 } 
566 splxí(s); 
567 ) . 
m.c 


图 12-36 in delmultip"2€ 


for 循 环 体 只 包含 一 个 continue 语 身 。 但 所 有 工作 都 由 循环 上 面 的 表达 式 做 了 ， 
并 不 需要 continue 语 向 ， 只 是 因为 它 比 只 有 一 个 分 号 更 清楚 一 些 。 
图 12-9 中 的 宏 ETHER_LOOKUP_MULTI 不 用 continue 语 向， 仅 有 一 个 分 号 几乎 
是 不 可 检测 的 。 
循环 结束 后 ， 把 匹配 的 in_multi 结 构 从 链表 上 断 开 ，in_delmulti 向 接口 发 布 
SIOCDELMULTI 请 求 ， 以 便 更 新 所 有 设备 专用 的 数据 结构 。 对 以 太 网 接口 来 说 ， 这 意味 着 更 
新 ether_multi 表 。 最 后 释放 in_multi 结 构 。 
LANCE 驱 动 程序 的 SIOCDELMULTI 情 况 语 身 包 括 在 图 12-31 中 ， 这 里 我 们 也 讨 
论 了 SIOCADDRMULTI 情 况 。 


12.12.2 ether_delmulti 了 函数 


当 IP 释 放 与 某 个 以 太 网 设备 相关 的 in_mu1ti 结 构 时 ， 该 设备 也 可 能 释放 匹配 的 
ether_multi 结 构 。 我 们 说 “可 能 ”是 因为 IP 忽 略 其 他 监听 IP 多 播 的 软件 。 当 ether_ 


294 


TCP/IPzE&£& A2: ZA 


multi 结 构 的 引用 计数 变 成 0 时 ， 就 释放 该 结构 。 图 12-37 是 ether_delmulti 函 数 。 





445 int 


if ethersubr.c 


446 ether delmulti(ifr, ac) 
447 struct ifreq *ifr; 
448 struct arpcom *ac; 


449 ( 
450 
451 
452 
453 
454 
455 


456 


457 
458 
459 
460 


461 
462 
463 
464 
465 
466 
467 
468 
469 
470 
471 
472 
473 
474 
475 


476 
477 
478 
479 


480 
481 
482 
483 
484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 


struct ether multi *enm; 
struct ether multi **p; 
struct sockaddr, in *sin; 
u char addrlo[6]; 
u_char addrhi[6]; 

int S = Ssplimp(); 


switch (ifr-»ifr, addr.sa family) ( 


case AF UNSPEC: 
bcopy (ifr-»ifr addr.sa data, addrlo, 6); 
bcopy(addrlo, addrhi, 6); 


break; 
case AF INET: 
Sin = (struct sockaddr in *) &(lifr-»ifr addr); 
if (sin-»sin, addr.s, addr == INADDR, ANY) ( 
/* 


* An IP address of INADDR ANY means stop listening 
* to the range of Ethernet multicast addresses used 
* for IP. 
*/ 

bcopy(ether ipmulticast, min, addrlo, 6); 

bcopy(ether ipmulticast max, addrhi, 6); 

) else ( 
ETHER, MAP. IP MULTICAST(&sin-»sin addr, addrlo); 
bcopy(addrlo, addrhi, 6); 


H 
break; 
default: 
splx(s); 
return (EAFNOSUPPORT); 
} 
/* 
* Look up the address in our list. 
*/ 


ETHER, LOOKUP. MULTI(addrio, addrhi, ac, enm); 
if (enm -- NULL) ( 

Splx(s); 

return (ENXIO); 
) 


if (--enm-»enm refcount != 0) ( 
/* 
* Still some claims to this record. 
*/ 
splx(s); 


return (0); 
} 
/* 
* No remaining claims to this record; unlink and free it. 
*/ 


图 12-37 ether, delmultitERX& 


#12% IP 多 4 295 


498 for (p = &enm-»enm ac-»ac, multiaddrs; 
499 *p !- enm; 
500 p = &(*p)-»enm next) 
501 continue; ` 
502 *p = (*p)-»enm next; 
503 free(enm, M IFMADDR); 
504 ac-»ac multicnt--; 
505 splx(s); 
506 /* 
507 * Return ENETRESET to inform the driver that the list has changed 
508 * and its reception filter should be adjusted accordingly. 
509 */ 
510 return (ENETRESET); 
511 ) . 
if. ethersubr.c 
图 12-37 (£3) 


445-479 ethner_delmulti 函 数 用 ether_addrmulti 函 数 采用 的 同一 方法 初始 化 
addrlio 和 aqddrhi 数 组 。 
1. 3 4Xether multi £&4 
480-494 “ETHER_LOOKUP_MULTI 寻 找 匹 配 的 ether_multi 结 构 。 如 果 没 有 找到 ， 则 返 
回 ENXIO。 如 果 找 到 匹配 的 结构 ， 则 把 引用 计数 减 去 1。 如 果 此 时 引用 计数 非 零 ， 
ether_delmulti 立 即 返 回 。 在 这 种 情况 下 ， 可 能 会 由 于 其 他 协议 也 要 接收 相同 的 多 播 分 组 
2. 删除 Ether_multi 结 构 
495-511 for 循 环 搜索 ether_multi 表 ， 寻 找 匹配 的 地 址 范围 ， 并 从 链表 中 断 开 匹 配 的 结 
构 ， 将 它 释 放 掉 。 最 后 ， 更 新 链表 的 长 度 ， 返 回 ENETRESET， 使 设备 驱动 程序 可 以 更 新 它 的 
硬件 接收 过 滤器 。 


12.13 ip_getmoptions A% 


取得 当前 的 选项 设置 比 设置 它们 要 容易 。ip_getmoptions 完 成 所 有 的 工作 ， 如 图 12-38 
所 示 。 

复制 选项 数据 和 返回 
876-914 ip_getmoptions 的 三 个 参数 是 : optname， 要 取得 的 选项 ; imo, 
ip_moptions 结 构 ; mp， 一 个 指向 mbuf 的 指针 。m_get 分 配 一 个 mbuf 存 放 该 选项 数据 。 这 
三 个 选项 的 指针 (分 别 是 addr、tt1l 和 1oop) 被 初始 化 为 指向 mbuf 的 数据 域 ， 而 mbuf 的 长 度 
被 设 成 选项 数据 的 长 度 。 

对 IP_MULTICAST_IF， 返 回 IFP_TO_IA 发 现 的 单 播 地 址 ， 或 者 如 果 没 有 选择 明确 的 多 
播 接口 ， 则 返回 INADDR_ANY。 

对 IP_MULTICRAST_TTL， 返 回 imo_multicast_tt1， 或 者 如 果 没 有 选择 明确 的 TTL， 
则 返回 1(IP_DEFAULT_MULTICAST_TTL)。 

对 IP_MULTICAST_LOOP， 返 回 imo_multicast_1loop， 或 者 如 果 没 有 选择 明确 的 多 
播 环 回 策略 ， 则 返回 1(IP_DEFAULT_MULTICAST_LOOP)。 

最 后 ， 如 果 不 识别 该 选项 ， 则 返回 EOPNOTSUPP。 
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876 int ip output.c 

877 ip getmoptions(optname, imo, mp) 

878 int optname; 

879 struct ip moptions *imo; 

880 struct mbuf **mp; 

881 ( 

882 u_char *ttl; 

883 u char *loop; 

884 struct in_addr *addr; 

885 struct in ifaddr *ia; 

886 *mp = m get (M WAIT, MT SOOPTS); 

887 switch (optname) ( 

888 case IP, MULTICAST, IF: 

889 addr = mtodí(*mp, struct in addr *); 

890 (*mp)-»m len = sizeof(struct in_addr); 

891 if (imo -- NULL || imo-»imo multicast ifp -- NULL) 

892 addr-»s addr = INADDR, ANY; 

893 else ( 

894 IFP.TO IA(imo--imo,multicast ifp, ia); 

895 addr-»s addr = (ia == NULL) ? INADDR, ANY 

896 : IA SIN(ia)-»sin addr.s addr; 

897 } 

898 return (0); 

899 case IP MULTICAST TTL: 

900 ttl - mtod(*mp, u char *); 

901 (*mp)-»m len - 1; 7 

902 *ttl - (imo -- NULL) ? IP, DEFAULT, MULTICAST TTL 

903 imo-»imo multicast ttl; 

904 return (0); 

905 case IP MULTICAST LOOP: 

906 loop = mtod(*mp, u_char *); 

907 (*mp)-»m len - 1; 

908 *loop = (imo == NULL) ? IP, DEFAULT. MULTICAST  LOOP 

909 : imo-»imo multicast loop; 

910 return (0); 

911 default: 

912 return (EOPNOTSUPP); 

913 } 

914 } . 
tp output.c 


图 12-38 ip getmoptionstAJ& 


12.14 多 播 输入 处 理 : ipintriRXE 


到 目前 为 止 ， 我 们 已 经 讨论 了 多 播 选 路 ， 组 成 员 关系 ， 以 及 多 种 与 P 和 以 太 网 多 播 有 关 
的 数据 结构 ， 现 在 转 入 讨论 对 多 播 数据 报 的 处 理 。 

在 图 4-13 中 ， 我 们 看 到 ether_input 检 测 到 达 的 以 太 网 多 播 分 组 ， 在 把 一 个 IP 分 组 放 到 
IP 输 入 队列 之 前 (ipintrq)， 把 mbuf 首 部 的 M_MCAST 标 志 位 置 位 。ipintr 函 数 按 顺 序 处 理 
每 个 分 组 。 我 们 在 ipintr 中 省 咯 的 多 播 处 理 程 序 如 图 12-39 所 示 。 

该 段 代 码 来 自 于 ipintr 程 序 ， 用 来 确定 分 组 是 寻 址 到 本 地 网 络 还 是 应 该 被 转发 。 此 时 ， 
已 经 检测 到 分 组 中 的 错误 ， 并 且 已 经 处 理 完 分 组 的 所 有 选项 。ip 指 向 分 组 内 的 IP 首 部 。 
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如 果 被 配置 成 多 播 路 由 器 ， 就 转发 分 组 
214-245 如果 目 的 地 址 不 是 一 个 IP 多 播 组 ， 则 跳 过 整个 这 部 分 代码 。 如 果 地 址 是 一 个 多 播 
组 ， 并 且 系 统 被 配置 成 IP 多 播 路 由 器 (ip_mrouter)， 就 把 ip_ia 转 换 成 网 络 字 节 序 
(ip_mforward 希 望 的 格式 )， 并 把 分 组 传 给 ijp_mforward。 如 果 出 现 错误 或 者 分 组 是 通过 
一 个 多 播 隧 道 (multicast tunnel) 到 达 的 ， 则 ip_mforward 返 回 一 个 非 零 值 。 分 组 被 丢弃 ， H 
ips_cantforward 的 值 加 1。 


我 们 在 第 14 章 中 描述 了 多 播 隧道 。 它 们 在 两 个 被 标准 IP 路 由 器 隔 开 的 多 播 路 由 器 
之 间 传 递 分 组 。 通 过 隧道 到 达 的 分 组 必须 由 ip_mforward 处 理 ， 而 不 是 由 ijpintr 
处 理 。 


如 果 iPp_mforward 返 回 0， 则 把 ip_iqa 转 换 回 主机 字 节 序 ， 由 ipintr 继 续 处 理 分 组 。 

如 果 ip 指 向 一 个 IGMP 分 组 ， 则 接受 该 分 组 ， 并 在 ours 处 (图 10-11 的 ijpintr) 继 续 执行 。 
不 管 到 达 接 口 的 每 个 目的 组 或 组 成 员 是 什么 ， 多 播 路 由 器 必须 接受 所 有 IGMP 分 组 。IGMP 分 
组 中 有 组 成 员 变 化 的 信息 。 
246-257 根据 系统 是 否 被 配置 成 多 播 路 由 器 来 确定 是 否 执行 图 12-39 中 的 其 余 程序 
IN_LOOKUP_MULTI 搜 索 接 口 加 入 的 多 播 组 表 。 如 果 设 有 找到 匹配 ， 则 丢弃 该 分 组 。 当 硬件 
过 滤器 接受 不 需要 的 分 组 时 ， 或 者 当 与 接口 相关 的 多 播 组 与 分 组 中 的 目的 多 播 地 址 映射 到 同 
一 个 以 太 网 地 址 时 ， 才 出 现 这 种 情况 。 

如 果 接 受 了 该 分 组 ， 就 继续 执行 ipintr( 图 10-11) 的 ours 标 号 处 的 语句 。 


214 if (IN_MULTICAST (ntohl(ip-»ip dst.s addr))) ( tp_input.c 
215 struct in_multi *inm; 

216 extern struct socket *ip_mrouter; 

217 if (ip mrouter) ( 

218 /* 

219 * If we are acting as a multicast router, all 

220 * incoming multicast packets are passed to the 

221 * kernel-level multicast forwarding function. 

222 * The packet is returned (relatively) intact; if 
223 * ip mforward() returns a non-zero value, the packet 
224 * must be discarded, else it may be accepted below. 
225 * 

226 * (The IP ident field is put in the same byte order 
227 * as expected when ip mforward() is called from 

228 * ip output().) 

229 */ 

230 ip-»ip.id = htons(ip-»ip id); 

231 if (ip mforward(m, m-»m pkthdr.rcvif) !- 0) ( 

232 ipstat.ips, cantforwarde-; 

233 m freem(m); 

234 goto next; 

235 ) 

236 |^ dip-»ip id = ntohs(ip-»ip id); 

237 /* - 

238 * The process-level routing demon needs to receive 
239 * all multicast IGMP packets, whether or not this 
240 * host belongs to their destination groups. 

241 */ 


12-39 ipintr 函 数 : 多 播 输 入 处 理 
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if (ip->ip_p == IPPROTO IGMP) 
goto ours; 
ipstat.ips forward-«-; 
) 


` ja 


* See if we belong to the destination multicast group on the 
* arrival interface. 
*/ 
IN LOOKUP MULTI(ip-»-ip dst, m-»m pkthdr.rcvif, inm); 
if (inm == NULL) ( 
ipstat.ips cantforward-«»*; 
m freem(m); 
goto next; 
H 


goto ours; 
ip input.c 
图 12-39 ( 续 ) 


12.15 多 播 输出 处 理 : ip outputi& X 


当 我 们 在 第 8 章 讨论 1p_output 时 ， 推 迟 了 对 ip_output 的 mp 参数 和 多 播 处 理 程序 的 讨 
论 。 在 ip_output 中 ， 如 果 mp 指 向 一 个 ip_moptions 结 构 ， 它 就 覆盖 多 播 输 出 处 理 的 默认 
值 。ip_output 中 省 略 的 程序 在 图 12-40 和 图 12-41 中 显示 。ip 指 向 输出 的 分 组 ，m 指 向 包含 
该 分 组 的 mbuf，ifp 指 向 路 由 表 为 目的 多 播 组 选择 的 接口 。 
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- - ip output.c 
(IN MULTICAST (ntohl(ip-»ip dst.s addr))) ( 


struct in multi *inm; 
extern struct ifnet loif; 


m-»m flags |= M MCAST; 
/* 
* IP destination address is multicast. Make sure "dst" 
* still points to the address in "ro". (It may have been 
* changed to point to a gateway address, above.) 
*/ 
dst = (struct sockaddr in *) &ro-»ro dst; 
/* 
* See if the caller provided any multicast options 
*/ 


if (imo !- NULL) ( 

ip-»ip ttl - imo-»imo multicast ttl; 

if (imo-»imo multicast ifp !- NULL) 

ifp = imo-»imo multicast ifp; 

) else 

ip-»ip ttl - IP DEFAULT MULTICAST, TTL; 
/* 
* Confirm that the outgoing interface supports multicast. 
*/ 
if ((ifp-»if flags & IFF MULTICAST) -- 0) ( 

ipstat.ips, noroutes4*; 

error - ENETUNREACH; 

goto bad; 


图 12-40 ip output Hg: 默认 和 源 地 址 
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If source address not specified yet, use address 


157 * 

158 * of outgoing interface. 

159 */ 

160 if (ip-»ip, src.s, addr == INADDR_ ANY) ( 

161 struct in ifaddr *ia; 

162 for (ia - in ifaddr; ia; ia - ia-»ia next) 

163 if (ia-»ia ifp -- ifp) ( 

164 ip-»ip src = IA SIN(ia)-»sin, addr; 

165 break; 

166 ) 

167 } . 
ip output.c 

图 12-40 (£5) 

168 IN LOOKUP MULTI(ip-»ip dst, ifp, inm); ip output. 

169 if (inm !- NULL && 

170 (imo == NULL || imo-»imo,multicast loop)) ( 

171 /* 

172 * If we belong to the destination multicast group 

173 * on the outgoing interface, and the caller did not 

174 * forbid loopback, loop back a copy. 

175 */ 

176 ip .mloopback(ifp, m, dst); 

177 ) else (f 

178 /* 

179 * If we are acting as a multicast router, perform 

180 * multicast forwarding as if the packet had just 

181 * arrived on the interface to which we are about 

182 * to send. The multicast forwarding function 

183 * recursively calls this function, using the 

184 * IP FORWARDING flag to prevent infinite recursion. 

185 * 

186 * Multicasts that are looped back by ip mloopback(), 

187 * above, will be forwarded by the ip.,input() routine, 

188 * if necessary. 

189 */ 

190 extern struct socket *ip mrouter; 

191 if (ip mrouter && (flags & IP. FORWARDING) == 0) ( 

192 if (ip mforward(m, ifp) != 0) ( 

193 m freem(ím); 

194 goto done; 

195 } 

196 } 

197 } 

198 /* 

199 * Multicasts with a time-to-live of zero may be looped- 

200 * back, above, but must not be transmitted on a network. 

201 * Also, multicasts addressed to the loopback interface 

202 * are not sent -- the above call to ip mloopback() will 

203 * loop back a copy if this host actually belongs to the 

204 ..' destination group on the loopback interface. 

205 */ 

206 if (ip-»ip.ttl == 0 || ifp == &loif) (- 

207 m freem(m); 

208 goto done; 

209 } 

210 goto sendit; 

211 . 
ip output.c 


图 12-41 ip output: 环 回 、 转 发 和 发 送 
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1. 建立 默认 值 
129-155 只 有 分 组 是 到 一 个 多 播 组 时 ， 才 执行 图 12-40 中 的 程序 。 此 时 ，:ip_output 把 
mbuf 中 的 M_MCAST 置 位 ， 并 把 qst 重 设 成 最 终 目的 地 址 ， 因 为 ip_output 可 能 曾 把 它 设 成 
下 一 跳 路 由 器 (图 8-24) 。 

如 果 传 递 了 一 个 ijp_moptions 结 构 ， 则 相应 地 改变 ip_tt1l 和 ifp。 否 则 ， 把 ip_tt1l 
设 成 1(IP_DEFRAULT_MULTICRAST_TTL)， 避 免 多 播 分 组 到 达 某 个 远程 网 络 。 查 询 路 由 表 或 
ip_moptions 结 构 所 得 到 的 接口 必须 支持 多 播 。 如 果 不 支持 ， 则 ip_output 丢 弃 该 分 组 ， 
并 返回 ENETUNRERACH。 

2. 选择 源 地 址 
156-167 如 果 没 有 指定 源 地 址 ， 则 由 for 循 环 找到 与 输出 接口 相关 的 单 播 地 址 ， 并 填 人 IP 
首部 的 ip_src。 

与 单 播 分 组 不 同 ， 如 果 系 统 被 配置 成 一 个 多 播 路 由 器 ， 则 必须 在 一 个 以 上 的 接口 上 发 送 
输出 的 多 播 分 组 。 即 使 系统 不 是 一 个 多 播 路 由 器 ， 输 出 的 接口 也 可 能 是 目的 多 播 组 的 一 个 成 
员 ， 也 会 需要 接收 该 分 组 。 最后， 我 们 需要 考虑 一 下 多 播 环 回 策 略 和 环 回 接口 本 身 。 把 所 有 
这 些 都 考虑 进去 ， 共 有 三 个 问题 : 

。 是 否 要 在 输出 的 接口 上 接收 该 分 组 ? 

*。 是 否 向 其 他 接口 转发 该 分 组 ? 

。 是 否 在 出 去 的 接口 发 送 该 分 组 ? 

图 12-41 显 示 了 ip_output 中 解决 这 三 个 问题 的 程序 。 

3. 是 否 环 回 ? 

168-176 如 果 IN_LOOKUP_MULTI 确 定 输出 的 接口 是 目的 多 播 组 的 成 员 ， 而 且 
imo_multicast_loop 非 零 ， 则 分 组 被 ijp_mloopback 放 到 输出 接口 上 排队 ， 等 待 输入 。 
在 这 种 情况 下 ， 不 考虑 转发 原始 分 组 ， 因 为 在 输入 过 程 中 如 果 需 要 ， 分 组 的 复制 会 被 转发 
的 。 

4. 是 否 转发 ? 

178-197 ”如果 分 组 不 是 环 回 的 ， 但 系统 被 配置 成 一 个 多 播 路 由 器 ， 并 且 分 组 符合 转发 的 条 
件 ， 则 ip_mforward 向 其 他 多 播 接 口 分 发 该 分 组 的 备份 。 如 果 ip_mforward 没 有 返回 0， 
则 ip_output 丢 弃 该 分 组 ， 不 发 送 它 。 这 表明 分 组 中 有 错误 。 

”为 了 避免 lip_mforward 和 ip_output 之 间 的 无 限 循 环 ，ip_mforward 在 调用 
ip_output 之 前 ， 总 是 把 TP_FORWARDING 打 开 。 在 本 系统 上 产生 的 数据 报 是 符合 转发 条 件 
的 ， 因 为 运输 层 不 打开 IF_FORWARDING。 

5. 是 否 发 送 ? 

198-209 TTL 是 0 的 分 组 可 能 被 环 回 ， 但 从 不 转发 它们 (ip_mforward 丢 弃 它 们 )， 也 从 不 
被 发 送 。 如 果 TTL 是 0 或 者 如 果 输 出 接口 是 环 回 接口 ， 则 ip_output 丢弃 该 分 组 ， 因 为 TTL — 
超时 ， 或 者 分 组 已 经 被 ljp_mloopback 环 回 了 。 

6. 发 送 分 组 
210-211 到 这 个 时 候 ， 分 组 应 该 已 经 从 物理 上 在 输出 接口 上 被 发 送 了 。 
sendit(ip_output， 图 8-25) 处 的 程序 在 把 分 组 传 给 接口 的 1f_outPut 国 数 之 前 可 能 已 经 
把 它 分 片 了 。 我 们 将 在 21.10 季 中 看 到 ， 以 太 网 输出 函数 ether._output 调 用 arpresolve,， 
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arpresolveX Wf ETHER MAP MULTICAST, HETHER_MAP_MULTICASTHR EIPS H H 
的 地 址 构造 一 个 以 太 网 多 播 目 的 地 址 。 


ip_mloopback 函 数 


ip_mloopback 依 靠 1ooutput( 图 $-27) 完 成 它 的 工作 。ip_mloopback 传 递 的 
1ooutput 不 是 指向 环 回 接口 的 指针 ， 而 是 指向 输出 多 播 接口 的 指针 。 图 12-42 显 示 了 
ipP_mloopback 国 数 。 


935 static void ip_output.c 

936 ip mloopback(ifp, m, dst) 

937 struct ifnet *ifp; 

938 struct mbuf *m; 

939 struct sockaddr. in *dst; 

940 { 

941 struct ip *ip; 

942 struct mbuf *copym; 

943 copym = m copy(m, 0, M COPYALLD); 

944 if (copym !- NULL) ( 

945 /* 

946 * We don't bother to fragment if the IP length is greater 

947 * than the interface's MTU. Can this possibly matter? 

948 */ 

949 ip = mtod(copym, struct ip *); 

950 ip-»ip len = htons((u short) ip-»ip len); 

951 ip-»ip.off = htons((u short) ip-»ip off); 

952 ip-»ip sum - 0; 

953 ip-»-ip. sum = in cksum(copym, ip-»ip hl << 2); 

954 (void) looutput(ifp, copym, (struct sockaddr *) dst, NULL); 

955 ) 

956 ] 。 

ip output.c 
图 12-42 ip mloopbackiRA 
复制 并 把 分 组 放 到 队列 中 


929-956 仅仅 复制 分 组 是 不 够 的 ; 必须 看 起 来 分 组 已 经 被 输出 接口 接收 了 ， 所 以 
ip_mloopback 把 ip_len 和 ip_off 转 换 成 网 络 字 节 序 ， 并 计算 分 组 的 检验 和 。 looutput 
把 分 组 放 到 IP 输 入 队列 。 


12.16 性 能 的 考虑 


Net/3 的 多 播 实 现 有 几 个 潜在 的 性 能 瓶颈 。 因 为 许多 以 太 网 网 卡 并 不 能 完美 地 实现 对 多 播 
地 址 的 过 滤 ， 所 以 操作 系统 必须 能 够 丢弃 那些 通过 硬件 过 滤器 的 分 组 。 在 最 坏 的 情况 下 ， 以 
太 网 网 卡 可 能 会 接收 所 有 分 组 ， 而 其 中 大 部 分 可 能 会 被 ipintz 发 现 不 具有 合法 的 IP 多 播 组 地 
址 。 

IP 用 简单 的 线性 表 和 线性 搜索 过 滤 到 达 的 IP 数 据 报 。 如 果 表 增长 到 一 定 长 度 后 ， 某 些 高 
速 缓存 技术 ， 如 移动 最 近 接 收 地 址 到 表 的 最 前 面 ， 将 有 助 于 提高 性 能 。 


12.17 ”小结 
本 章 我 们 讨论 了 一 个 主机 如 何 处 理 IP 多 播 数 据 报 。 我 们 看 到 ， 在 IP 的 D 类 地 址 和 以 太 网 多 
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播 地 址 的 格式 及 它们 之 间 的 映射 关系 。 

我 们 讨论 了 in-multi 和 ether_multi 结 构 ， 每 个 IP 多 播 接口 都 维护 一 个 它 自己 的 组 成 
员 表 ， 而 每 个 以 太 网 接口 都 维护 一 个 以 太 网 多 播 地 址 。 

在 输入 处 理 中 ， 只 有 和 到达 接 口 是 目 的 多 播 组 的 成 员 时 ， 该 IP 多 播 才 被 接受 下 来 。 尽 管 如 
果 系 统 被 配置 成 多 播 路 由 器 ， 它 们 也 可 能 被 继续 转发 到 其 他 接口 。 

被 配置 成 多 播 路 由 器 的 系统 必须 接受 所 有 接口 上 的 所 有 多 播 分 组 。 只 要 为 INADDR_ANY 
地 址 发 布 SIOCADDMULTI 命 令 ， 就 可 以 迅速 做 到 这 一 点 。 

ip_moptions 结 构 是 多 播 输出 处 理 的 基础 。 它 控制 对 输出 接口 的 选择 、 多 播 数据 报 TTL 
辖 域 值 的 设置 以 及 环 回 策略 。 它 也 控制 对 in_multi 结 构 的 引用 计数 ， 从 而 决定 接口 加 入 或 
离开 某 个 IP 多 播 组 的 时 机 。 

我 们 也 讨论 了 多 播 TTL 值 实现 的 两 个 概念 : 分 组 生存 期 和 分 组 辖 域 。 


习题 


12.1 发 送 IP 广 播 分 组 到 255.255.255.255 和 发 送 IP 多 播 给 所 有 主机 组 224.0.0.1 的 区 别 是 什 
么 ? 

12.2 为 什么 用 多 播 代码 中 的 了 P 单 播 地址 标识 接口 ? 如 果 接 口 能 发 送 和 接收 多 播 地 址 ， 但 
没有 一 个 单 播 耻 地 址 ， 必 须 做 什么 改动 ? 

12.3 在 12.3 节 中 ， 我 们 讲 到 32 个 下 组 地 址 被 映射 到 同一 个 以 太 网 地 址 上 。 因 为 32 bit 地 址 
中 的 9 bit 不 在 映射 中 。 为 什么 我 们 不 说 512(29) 个 I 组 被 映射 到 一 个 以 太 网 地 址 上 ? 

12.4 你 认为 为 什么 把 TP_MAX_MEMBERSHIPS 设 成 20? 能 被 设 得 更 大 一 些 吗 ? 提示 : 考 
虚 ip_moptions 结 构 ( 图 12-15) 的 大 小 。 

12.5 当 一 个 多 播 数 据 报 被 IP 环 回 并 且 被 发 送 它 的 硬件 接口 接收 ( 即 一 个 非 单 工 接口 ) 时 ， 
会 发 生 什么 情况 ? 

12.6 画 一 个 有 一 个 多 接口 主机 的 网 络 图 ， 即 使 该 主机 没有 被 配置 成 多 播 路 由 器 ， 其 他 接 
口 也 能 接收 到 在 某 个 接口 上 发 送 的 多 播 分 组 。 

12.7 通过 SLIP 和 环 回 接口 而 不 是 以 太 网 接口 跟踪 成 员 增加 请 求 。 

12.8 进程 如 何 请 求 内 核 加 入 多 于 IP_MAX_MEMBERSHIPS 个 组 ? 

12.9 计算 环 回 分 组 的 检验 和 是 多 余 的 。 设 计 一 个 方法 ， 避 免 计 算 环 回 分 组 的 检验 和 。 

12.10 接口 在 不 重用 以 太 网 地 址 的 情况 下 ， 最 多 可 加 入 多 少 个 I 多 播 组 中 ? 

12.11 细心 的 读者 可 能 已 经 注意 到 in_delmulti 在 发 布 SIOCDELMULTI 请 求 时 ， 假 定 
接口 已 经 定义 了 ioct1 国 数 。 为 什么 这 样 不 会 出 错 ? 

12.12 如 果 请 求 一 个 未 识别 的 选项 ， 则 ip_getmoptions 中 分 配 的 mbuf 将 会 发 生 什么 
情况 ? 

12.13 为 什么 把 组 成 员 机 制 与 用 于 接收 单 播 和 广播 数据 报 的 绑 定 机 制 分 离开 来 ? 


第 13 章 IGMP: Internet 组 管理 协议 


13.1 引言 


IGMP 在 本 地 网 络 上 的 主机 和 路 由 器 之 闻 传 达 组 成 员 信息 。 路 由 器 定时 向 “所 有 主机 组 ” 
多 播 IGMP 查 询 。 主 机 多 播 IGMP 报 告 报 文 以 响应 查询 。IGMP 规 范 在 RFC 1112 中 。 卷 1 的 第 13 
章 讨 论 了 IGMP 的 规范 ， 并 给 出 了 一 些 例子 。 

从 体系 结构 的 观点 来 看 ，IGMP 是 位 于 IP 上 面 的 运输 层 协 议 。 它 有 一 个 协议 号 (2)， 它 的 报 - 
文 是 由 IP 数 据 报 运载 的 (与 ICMP 一 样 )。 与 ICMP 一 样 ， 进 程 通常 不 直接 访问 IGMP， 但 进程 可 
以 通过 IGMP 播 口 发 送 或 接收 IGMP 报 文 。 这 个 特性 使 得 能 够 把 多 播 选 路 守护 程序 作为 用 户 级 
进程 实现 。 

图 13-1 显 示 了 Net/3 中 IGMP 协 议 的 整体 结构 。 
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图 13-1 IGMP 处 理 概 要 


IGMP 处 理 的 关键 是 一 组 在 图 13-1 中 心 显示 的 in_multi 结 构 。 到 达 的 IGMP 查 询 使 
igmp_input 为 每 个 in_multi 结 构 初 始 化 一 个 递减 定时 器 。 访 定时 器 由 igmp_fasttimo 
更 新 ， 当 每 个 定时 器 超时 时 ，igmp_fasttimo 调 用 igmp_sendreport。 

我 们 在 第 12 章 中 看 到 ， 当 创建 一 个 新 的 in_multi 结 构 时 ，ip_setmoptions 调 用 
igmp_joingroup。igmp_joingroup 调 用 igmp_sendreport 来 发 布 新 的 组 成 员 信 息 ， 
使 组 的 定时 器 能 够 在 短 时 间 内 安排 第 二 次 通告 。igmp_sendreport 完 成 对 IGMP 报 文 的 格式 
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化 ， 并 把 它 传 给 ijp_output。 
在 图 13-1 的 左边 和 右边 ， 我 们 看 到 一 个 原始 插口 可 以 直接 发 送 和 接收 IGMP 报 文 。 


13.2 代码 介绍 


图 13-2 中 列 出 了 实现 IGMP 协 议 的 4 个 文件 。 














IGMP 协 议定 义 
IGMP 实 现 定义 
netinet/in var.h IP 多 播 数据 结构 


图 13-2 本 章 讨论 的 文件 


netinet/igmp.h 







netinet/igmp var.h 





13.2.1 全 局 变量 
本 章 中 介绍 的 新 的 全 局 变量 显示 在 图 13-3 中 。 


igmp. all hosts, group u long 网 络 字 闻 序 的 “所 有 主机 组 ”地 起 


igmp timer are running | int 如 果 所 有 IGMP 定 时 器 都 有 效 ， 则 为 上; 否则 为 假 
igmp stat struct igmpstat | IGMP 统 计 ( 图 13-4) 


图 13-3 本 章 介 绍 的 全 局 变量 





13.2.2 统计 量 


IGMP 统 计 信 息 是 在 图 13-4 的 igmpstat 变 量 中 维护 的 。 


Igmpstat 成 员 


igps, rcv, badqueries 





















作为 无 效 查 询 接收 的 报 文 数 










igps rcv, badreports 作为 无 效 报告 接收 的 报 文 数 

igps_rcv_badsum 接收 的 报 文 愉 验 和 错误 数 

igps, rcv ourreports 作为 逻辑 组 的 报告 接收 的 报 文 数 
igps_rcv_queries 作为 成 员 关 系 查 询 接 收 的 报 文 数 

igps rcv reports 作为 成 员 关 系 报告 接收 的 报 文 数 
igps_rcv_tooshort 字 节 数 大 少 的 报 文 数 . 
igps. rcv..total 接收 的 全 部 报 文 数 


作为 成 员 关 系 报告 发 送 的 报 文 数 


igps snd reports 





图 13-4 IGMP 统 计 


图 13-5 是 在 vangogh.cs.berkeley.edu 上 执行 hetstat -p igmp 命 令 后 ， 输 出 的 
统计 信息 。 

在 图 13-5 中 ， 我 们 看 到 vangogh 是 连 到 一 个 使 用 IGMP 的 网 络 上 的 ， 但 是 vangogh 没 有 
加 入 任何 多 播 组， 因为 jgps_snd_reports 是 0。 
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netstat -p igmp 输出 
六 一 


18774 messages received 
0 messages received with too few bytes 

0 messages received with bad checksum 

18774 membership queries received 

0 membership queries received with invalid field(s) 
membership reports received 

membership reports received with invalid field(s) 
membership reports received for groups to which we belong 
membership reports sent 


igmpstat 成 员 


igps rcv total 
igps rcv, tooshort 
igps rcv badsum 
igps. rcv. queries 
igps rcv, badqueries 
igps rcv reports 
igps rcv, badreports 
igps, rcv. ourreports 
igps snd reports 





























oooo0 








图 13-5 IGMP 统 计 示 例 


13.2.3 SNMP% Æ 


IGMP 设 有 标准 的 SNMP MIB, {8 [McCloghrie Farinacci 1994a] 描 述 了 一 个 IGMP 的 实验 
MIB, 


13.3 igmp 结 构 
IGMP 报 文 只 有 8 字 节 长 。 图 13-6 显 示 了 Net/3 使 用 的 ijgmp 结 构 。 





43 struct igmp { igmp.h 

44 u_char igmp type; /* version & type of IGMP message  */ 

45 u_char igmp code; /* unused, should be zero */ 

46 u, short igmp cksum; /* IP-style checksum */ 

47 struct in addr igmp_group; /* group address being reported */ 

48 ); /* (zero for queries) */ . 
igmp.h 


图 13-6 igmp 结 构 


igmp_type 包 括 一 个 4 bit 的 版 本 码 和 一 个 4 bit 的 类 型 码 。 图 13-7 显 示 了 标准 值 。 


ma me 























Ox11(IGMP HOST MEMBERSHIP QUERY) 成 员 关 系 查询 
0x11 (IGMP, HOST MEMBERSHIP, REPORT) | 成 员 关 系 报告 
0x13 DVMRP 报 文 (第 14 章 ) 





图 13-7 IGMP 报 文 类 型 


IGMP 报 文 。 一 一 一 一 9| 


e—a M — —5| 


图 13-8 IGMP 报 文 (省 略 igmp_) 
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43-44 ”Net/3 只 使 用 版 本 1 的 报 文 。 多 播 路 由 器 发 送 1 类 报 文 (IGMP_HOST_MEMBERSHIP_ 
QUERY) 向 本 地 网 络 上 所 有 主机 请 求 成 员 关 系 报告 。 对 1 类 IGMP 报 文 的 响应 是 主机 的 一 个 2 类 
报 文 (IGMP_HOST_MEMBERSHIP_REPORT)， 报 告 它们 的 多 播 成 员 信 息 。3 类 报 文 在 路 由 器 
之 间 传 输 多 播 选 路 信息 (第 14 章 )。 主 机 不 处 理 3 类 报 文 。 本 章 后 面部 分 只 讨论 1 类 和 2 类 报 文 。 
45-46 在 IGMP 版 本 1 中 没有 使 用 igmp_code。igmp_cksum 与 PP 类似 ， 计 算 IGMP 报 文 的 
所 有 8 个 字 节 。 
47-48 对 查询 ，igmp_group 是 0。 对 回答 ， 它 包括 报告 的 多 播 组 。 

图 13-8 是 相对 于 IP 数 据 报 的 IGMP 报 文 结构 。 


13.4 IGMP 的 protosw 的 结构 


图 13-9 是 IGMP 的 protosw 结 构 。 


pr type SOCK RAW IGMP 提 供 厌 始 分 组 服务 

pr domain &inetdomain IGMP 是 Internet 域 的 一 部 分 
pr. protocol IPROTO IGMP(2) 显示 在 IP 首 部 的 ijp_p 字 段 . 
pr flags PR ATOMICIPR ADDR | 插口 层 标志 ， 协 议 处 理 不 使 用 
pr_input igmp_input 从 IP 层 接收 报 文 

pr, output rip output 向 IP 层 发 送 IGMP 报 文 
pr_ctlinput 0 IGMP 设 有 使 用 

pr. ctloutput rip ctloutput Wa] e 5e P1 HEUER 

pr usrreq rip usrreq 啊 应 来 白 进 程 的 通信 请 求 

pr init igmp init 为 IGMP 初 始 化 

pr fasttimo igmp. fasttino 进程 挂 起 成 员 关 系 报 告 

pr slowtimo IGMP 没 有 使 用 

pr_drain IGMP 没 有 使 用 

pr_sysctl IGMP 没 有 使 用 





图 13-9 IGMP protosw 的 结构 


尽管 进程 有 可 能 通过 IGMP protosw 入 口 发 送 原始 IP 分 组 ， 但 在 本 章 ， 我 们 只 考虑 内 核 
如 何 处 理 IGMP 报 文 。 第 32 章 讨论 进程 如 何 用 原始 插口 访问 IGMP。 

三 种 事件 触发 IGMP 处 理 : 

。 一 个 本 地 接口 加 入 一 个 新 的 多 播 组 (13.5 节 ); 

“ 某 个 IGMP 定 时 器 超时 (13.6 节 ) 和 

。 收 到 一 个 IGMP 查 询 (13.7 节 )。 

还 有 两 种 事件 也 触发 本 地 IGMP 处 理 ， 但 结果 不 发 送 任何 报 文 : 

。 收 到 一 个 IGMP 报 告 (13.7 节 ); 和 

* 某 个 本 地 接口 离开 一 个 多 播 组 (13.8 节 )。 

下 一 节 将 讨论 这 五 种 事件 。 


13.5 加 入 一 个 组 : igmp joingroupikÉÉ 


在 第 12 章 中 我 们 看 到 ， 当 一 个 新 的 in_multi 结 构 被 创建 时 ，in_aadmulti 调 用 
igmp_joingroup 。 后 面 加 入 同一 多 播 组 的 请 求 只 增加 in_multi 结 构 里 的 引用 计数 ; 不 调 
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Hiigmp. joingroup. igmp joingroup/ZnÉEl13-10Bpz. 


164 void Igmp.c 

165 igmp joingroup(inm) 

166 struct in multi *inm; 

167 ( 

168 int S = Ssplnet(); 

169 if (inm-»inm addr.s addr == igmp all hosts group |l 

170 inm-»inm ifp == &loif) 

171 inm-»inm timer = 0; 

172 else ( 

173 igmp sendreport (inm); 

174 inm-»inm timer = IGMP RANDOM DELAY (inm-»inm addr); 

175 igmp timers, are running - 1; 

176 } 

177 spixí(s); 

178 ) . 
igmp.c 


13-10. igmp joingroupEA 


164-178 inm 指 向 组 的 新 in_multi 结 构 。 如 果 新 的 组 是 “所 有 主机 组 ”， 或 成 员 关 系 请 求 
是 环 回 接口 的 ， 则 inm_timer 被 禁止 ，igmp_joingroup 返 回 。 不 报告 “所 有 主机 组 ”的 
成 员 关 系 ， 因 为 假定 每 个 多 播 主机 都 是 该 组 的 成 员 。 没 必要 向 环 回 接口 发 送 组 成 员 报 告 ， 因 
为 本 地 主机 是 在 回路 网 络 上 的 唯一 系统 ， 它 已 经 知道 它 的 成 员 状 态 了 。 

在 其 他 情况 下 ， 新 组 的 报告 被 立即 发 送 ， 并 根据 组 的 情况 为 组 定时 器 选择 一 个 随机 的 值 。 
全 局 标志 位 jgmp_timers_are_running 被 设置 ,表明 至 少 使 能 一 个 定时 器 。 
igmp fasttimo (13.6 节 ) 检 查 这 个 变量 ， 和 避免 不 必要 的 处 理 。 


59-73 


当 新 组 的 定时 器 超时 ， 就 发 布 第 2 次 成 员 关 系 报告 。 复 制 报告 是 无 害 的 ， 当 第 一 次 报 


告 丢 失 或 被 破坏 时 ， 有 了 它 就 保险 了 。IGMP_RANDOM_DELAY (13-11 图 ) 计 算 报 告 时 延 。 


59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 





m igmp  var.h 
* Macro to compute a random timer value between 1 and (IGMP MAX REPORTING. 
* DELAY * countdown frequency). We generate a "random" number by adding 
* the total number of IP packets received, our primary IP address, and the 
* multicast address being timed-out. The 4.3 random() routine really 
* ought to be available in the kernel! 

*/ 
#define IGMP RANDOM,DELAY (multiaddr) \ 
/* struct in addr multiaddr; */ \ 
( (ipstat.ips total + \ 
ntohl(IA SIN(in ifaddr)-»sin addr.s addr) + \ 
ntohl((multiaddr).s addr) ^ 
) \ 
€ (IGMP MAX HOST REPORT, DELAY * PR FASTHZ) + 1 \ 


igmp var.h 


图 13-11 IGMP RANDOM DELAY [f 


根据 RFC 1122， 报 告 定时 器 必须 设 成 0 到 10 之 间 的 随机 秒 数 (IGMP_MAX_HOST_ 
REPORT_DELAY)。 因 为 IGMP 定时 器 每 秒 被 减 去 5 次 (PR_FASTHZ)， 所 以 IGMP_RANDOM_ 
DELAY 必 须 选择 一 个 在 1~50 之 间 的 随机 数 。 如 果 r 是 把 接 到 的 所 有 IP 分 组 数 、 主 机 的 原始 地 址 
和 多 播 组 相 加 后 得 到 的 随机 数 ， 则 
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O < (rmod50) < 49 
1 < (rmod50)«1 < 50 
要 避免 为 0， 因 为 这 会 禁止 定时 器 ， 并 且 不 发 送 任何 报告 。 
13.6 iigmp_fasttimo 函 数 


在 讨论 ijgmp_fasttino 之 前 ， 我 们 需要 描述 一 下 遍历 in_multi 结 构 的 机 制 。 
为 找到 各 个 jn_multi 结 构 ，Net/3 必 须 遍 历 每 个 接口 的 jn_multi 表 。 在 遍历 过 程 中 ， 
in_multistep 结 构 ( 如 图 13-12 所 示 ) 记 录 位 置 。 








123 struct in multistep ( in varh 
124 struct in ifaddr *i ia; 
125 struct in multi *i inm; 
126 }; 
in var.h 


图 13-12 in_multistep 函 数 


123-126 i_ia 指 向 下 一 个 in_ifaddr 接 口 结 构 ，i_inm 指 向 当前 接口 的 ijn_multi 结 构 。 
IN_FIRST_MULTI 和 IN_NEXT_MULTI 宏 (显示 如 图 13-13) 遍 历 该 表 。 





in var.h 
147 /* 
148 * Macro to step through all of the in multi records, one at a time. 
149 * The current position is remembered in "step", which the caller must 
150 * provide. IN FIRST MULTI(), below, must be called to initialize "step" 
151 * and get the first record. Both macros return a NULL "inm" when there 
152 * are no remaining records. 
153 */ 
154 #define IN NEXT MULTI(step, inm) \ 
155 /* struct in multistep step; */ V 
156 /* struct in multi *inm; */ \ 
157 ( \ 
158 if (((inm) = (step).i inm) !- NULL) * 
159 (step).i inm = (inm)-»inm next; ^ 
160 else V 
161 while ((step).i ia !- NULL) { * 
162 (inm) = (step).i ia-»ia, multiaddrs; \ 
163 (step).i ia = (step).i ia-»ia next; \ 
164 if ((inm) !- NULL) ( ^ 
165 (step).i inm = (inm)-»inm next; \ 
166 break; \ 
167 ) ^ 
168 AN 
169 } 
170 #define IN FIRST MULTI(step, inm) \ 
171 /* struct in multistep step; */ \ 
172 /* struct in multi *inm; */ \ 
173 ( \ 
174 (step).i ia = in, ifaddr; \ 
175 (step).i inm = NULL; \ 
176 IN, NEXT MULTI((step), (inm)); \ 
177 ) 


i var.h 


图 13-13 IN FIRST MULTI4UIN NEXT MULTIÉ£S HJ 
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154-169 ”如果 in_multi 表 有 多 个 人 口 ，i_inm 就 前 进 到 下 一 个 入 口 。 当 IN_NEXT_ 
MULTI 到 达 多 播 表 的 最 后 时 ，i_ia 就 指向 下 一 个 接口 ，i_inm 指 向 与 该 接口 相关 的 第 一 个 
in_multi 结 构 。 如 果 该 接口 没有 多 播 结 构 ，whi le 循环 继续 遍历 整个 接口 表 ， 直 到 搜索 完 
所 有 接口 。 
170-177 in_multistep 数 组 初始 化 上 时， 指向 in_ifaqdqdr 表 的 第 一 个 jn_ifaddr 结 构 ， 
i_inm 设 成 空 。IN_NEXT_MULTI 找 到 第 一 个 ijn_mu1lti 结 构 。 

从 图 13-9 我 们 知道 ，igmp_fasttimo 是 IGMP 的 快速 超时 函数 ， 每 秒 被 调用 5 次 。 
igmp_fasttimo( 如 图 13-14) 递 碱 多 播报 告 定时 器 ， 并 在 定时 器 超时 时 发 送 一 个 报告 。 





187 void 人 

188 igmp fasttimo() 

189 ( 

190 struct in multi *inm; 

191 int 8; 

192 Struct in multistep step; 

193 /* 

194 * Quick check to see if any work needs to be done, in order 

195 * to minimize the overhead of fasttimo processing. 

196 */ 

197 if (1!igmp timers, are running) 

198 return; 

199 S = Splnet(); 

200 igmp timers are running - 0; 

201 IN FIRST MULTI(step, inm); 

202 while (inm !- NULL) ( 

203 if (inm-»inm timer -- 0) ( 

204 /* do nothing */ 

205 ) else if (--inm-»inm timer == 0) { 

206 igmp sendreport (inm); 

207 ) else ( 

208 igmp timers are running - 1; 

209 ) 

210 IN NEXT MULTI(step, inm); 

211 } 

212 Splxís); 

213 ) ， 
igmp.c 


图 13-14 igmp_fasttino 结 构 


187-198 如果 igmp_timers_are_running 为 假 ，igmp_fasttimo 立 即 返回 ， 不 再 浪 
费时 间 检 查 各 个 定时 器 。 
199-213 igmp_fasttimo 重 新 设置 运行 标志 位 ， 用 IN_FIRST_MULTI 初 始 化 step 和 
inm。igmp_fasttimo 困 数 用 while 循 环 找到 各 个 in_multi 结 构 和 IN_NEXT_MULTI 宏 。 
对 每 个 结构 : 

。 如 果 定 时 器 是 0， 什 么 都 不 做 。 

。 如 果 定 时 器 不 是 0， 则 将 其 递减 。 如 果 到 达 0， 则 发 送 一 个 IGMP 组 成 员 关 系 报告 。 

- 如果 定时 器 还 不 是 0， 则 至 少 还 有 一 个 定时 器 在 运行 ， 所 以 把 i gmp_timers_are_ 

running 设 成 1。 


310 


TCP/IP:É&& %2: 实现 


igmp_senäreport M% 


igmp. sendreportt(A S (E] 13-15)79 —/1- & RARER XS IGMPHR ER. 








214 static void igmp.c 

215 igmp, sendreport (inm) 

216 struct in multi *inm; 

217 ( 

218 struct mbuf *m; 

219 struct igmp *igmp; 

220 struct ip *ip; 

221 struct ip,.moptions *imo; 

222 struct ip moptions simo; 

223 MGETHDR(m, M DONTWAIT, MT HEADER); 

224 if (m -- NULL) 

225 return; 

226 /* 

227 * Assume max linkhdr + sizeof(struct ip) + IGMP, MINLEN 

228 * is smaller than mbuf size returned by MGETHDR. 

229 */ 

230 m-»m data += max linkhdr; 

231 m-»m len = sizeof (struct ip) + IGMP MINLEN; 

232 m-»m pkthdr.len = sizeof(struct ip) + IGMP, MINLEN; 

233 ip = mtod(m, struct ip *); 

234 ip-»ip tos - 0; 

235 ip-»ip len = sizeof(struct ip) + IGMP MINLEN; 

236 ip-»ip off - 0; 

237 ip-»ip p = IPPROTO IGMP; 

238 ip-»ip src.s, addr = INADDR, ANY; 

239 ip-»ip dst = inm-»inm addr; 

240 igmp = (struct igmp *) (ip + 1); 

241 igmp-»igmp type = IGMP, HOST MEMBERSHIP, REPORT; 

242 igmp-»igmp code = 0; 

243 igmp-»igmp group = inm-»inm addr; 

244 igmp-»igmp cksum = 0; 

245 igmp-»igmp cksum = in cksum(m, IGMP MINLEN); 

246 imo - &simo; 

247 bzero((caddr t) imo, sizeof(*imo)); 

248 imo-»imo multicast ifp = inm-»inm ifp; 

249 imo-»imo multicast ttl - 1; 

250 /[* 

251 * Request loopback of the report if we are acting as a multicast 

252 * router, so that the process-level routing demon can hear it. 

253 */ 

254 ( 

255 extern struct socket *ip mrouter; 

256 imo-»-imo multicast loop = (ip mrouter !- NULL); 

257 } 

258 ip_output (m, NULL, NULL, 0, imo); 

259 *«igmpstat.igps snd, reports; 

260 } . 
igmp.c 


图 13-15 igmp_sentreport Ex 


214-232 ”唯一 的 参数 inm 指 向 被 报告 组 的 ijn_multi 结 构 。igmp_sendreport 分 配 一 个 
新 的 mbuf， 准 备 存放 一 个 IGMP 报 文 。 igmp_sendreport 为 链 路 层 首部 留 下 空间 ， 把 mbuf 
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的 长 度 和 分 组 的 长 度 设 成 IGMP 报 文 的 长 度 。 

233-245 每 次 构造 下 首 部 和 IGMP 报 文 的 一 个 字段 。 数 据 报 的 源 地 址 设 成 INADDR_ANY， 目 
的 地 址 是 被 报告 的 多 播 组 。ip_outpPut 用 输出 接口 的 单 播 地 址 替换 INADDR_RANY 。 每 个 组 成 
员 和 所 有 多 播 路 由 器 都 接收 报告 (因为 路 由 器 接收 所 有 卫 多 播 )。 

246-260 最 后 ，igmp_sentreport 构 造 一 个 ip_moptions 结 构 ， 并 把 它 与 报 文 一 起 传 
给 ijp_output。 与 in_multi 结 构 相 关 的 接口 被 选 做 输出 的 接口 ; TTL 被 设 成 1， 使 报告 只 
在 本 地 网 络 上 ; 如 果 本 地 系统 被 配置 成 路 由 器 ， 则 人 允许 这 个 请 求 的 多 播 环 回 。 


进程 级 的 多 播 路 由 器 必须 监听 成 员 关 系 报告 。 在 12.14 节 中 我 们 看 到 ， 当 系统 被 
配置 成 多 播 路 由 器 时 ， 总 是 接收 IGMP 数 据 报 。 通 过 普通 的 运输 层 分 用 程序 把 报 文 传 
ZIGMP£jigmp. inputfáepr. input 3X( Bl 13-9), 


13.7 输入 处 理 : igmp inputi& XE 


在 12.14 节 中 ， 我 们 描述 了 ipintr 的 多 播 处 理 部 分 。 我 们 看 到 ， 多 播 路 由 器 接受 所 有 
IGMP 报 文 ， 但 多 播 主机 只 接受 那些 到 达 接 口 是 目 的 多 播 组 成 员 的 IGMP 报 文 (也 即 ， 那 些 接收 
它们 的 接口 是 组 成 员 的 查询 和 成 员 关系 报告 )。 

标准 协议 分 用 机 制 把 接受 的 报 文 传 给 igmp_input。igmp_input 的 开始 和 结束 如 图 13-16 
所 示 。 下 面 几 节 描 述 每 种 IGMP 报 文 类 型 码 。 

52 void 


53 igmp input(m, iphlen) 
54 struct mbuf *m; 


igmp.c 


55 int iphlen; 

56 { 

57 struct igmp *igmp; 

58 struct ip *ip; 

59 int igmplen; 

60 struct ifnet *ifp - m-»m pkthdr.rcvif; 
61 int minlen; 

62 struct in multi *inm; 

63 struct in ifaddr *ia; 

64 struct in multistep step; 

65 --igmpstat.igps,rcv total; 

66 ip = mtod(m, struct ip *); 

67 igmplen = ip-»ip len; 

68 /* 

69 * Validate lengths 

70 */ 

71 if (igmplen < IGMP MINLEN) { 

72 ++igmpstat .igps_rcv_tooshort; 

73 m freem (m); 

74 return; 

75 ) 

76 minlen = iphlen + IGMP. MINLEN; 

77 if ((m-»m flags & M EXT || m-»m len < minlen) && 
78 (m = m pullup(m, minlen)) -- 0) ( 
79 -*igmpstat.igps rcv, tooshort; 

80 return; 

81 } 


图 13-16 igmp_input M% 
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82 /* 





83 * Validate checksum 
84 */ 
85 m-»m data += iphlen; 
86 m-»m len -- iphlen; 
87 igmp = mtod(m, struct igmp *); 
88 if (in cksum(m, igmplen)) ( 
89 :-igmpstat.igps, rcv badsum; 
90 m freem(m); 
91 return; 
92 ) 
93 m-»m data -- iphlen; 
94 m-»m len += iphlen; 
95 ip = mtod(m, struct ip *); 
96 Switch (igmp-»igmp type) ( 
/* switch ei 
157 ) 
158 /* 
159 * Pass all valid IGMP packets up to any process(es) listening 
160 * on a ràw IGMP socket. 
161 */ 
162 rip input (m); 
163 ) 


igmp.c 
图 13-16 ( 续 ) 

1. 验证 IGMP 报 文 ， 
52-96 函数 ipintr 传 递 一 个 指向 接受 分 组 (存放 在 一 个 mbuf 中 ) 的 指针 m， 和 数据 报 IP 首 部 
的 大 小 iphlen。 

数据 报 的 长 度 必 须 足 够 容纳 一 个 IGMP 报 文 (IGMP_MIN_LEN)， 并 能 被 放 在 一 个 标准 的 
mbuf 首 部 中 (m_pullup)， 而 且 还 必须 有 正确 的 IGMP 检 验 和 。 如 果 发 现 有 任何 错误 ， 统 计 错 
误 的 个 数 ， 并 自动 丢弃 该 数据 报 ，igmp_input 返 回 。 

igmp_input 进 程 体 根据 ijgmp_type 内 的 代码 处 理 无 效 报 文 。 记 得 在 图 13-6 中 ， 
igmp_type 包 含 一 个 版 本 码 和 一 个 类 型 码 。switch 语 句 基 于 igmp._type( 图 13-7) 中 两 个 值 
的 结合 。 下 面 儿 节 分 别 讨论 几 种 情况 。 

2. 把 IGMP 报 文 传 给 原始 IP 
157-163 ”这 个 switch 语 句 没 有 default 情 况 。 所 有 有 效 报 文 (也 就 是 ， 格 式 正确 的 报 文 ) 
被 传 给 rip_input， 在 rip_input 里 被 提交 给 所 有 监听 IGMP 报 文 的 进程 。 监 听 进 程 可 以 自 
由 处 理 或 丢弃 那些 具有 内 核 不 识别 的 版 本 或 类 型 的 IGMP 报 文 。 

mrouted 依 千 对 rip_input 的 调用 接收 成 员 关 系 查 询 和 报告 。 


13.7.4 成 员 关 系 查 询 : IGMP HOST MEMBERSHIP QUERY 


RFC 1075 推 荐 多 播 路 由 器 每 120 秒 至 少 发 布 一 次 IGMP 成 员 关 系 查 询 。 把 查询 发 到 
224.0.0.1 组 (“所 有 主机 组 ”)。 图 13-17 显 示 了 主机 如 何 处 理 报 文 。 
97-122 ”到 达 环 回 接口 上 的 查询 报 文 被 自动 丢弃 (习题 13.1)。 查 询 报 文 被 定义 成 发 给 “所 有 
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主机 组 ”， 到 达 其 他 地 址 的 查询 报 文 由 igps_rcv_badaqueries 统 计数 量 ， 并 被 丢弃 。 


97 case IGMP, HOST, MEMBERSHIP, QUERY: tgmp.c 

98 -*igmpstat.igps rcv, queries; 

99 if (ifp -- &loif) 

100 break; 

101 if (ip-»ip.dst.s addr !- igmp all hosts, group) ( 

102 -*igmpstat.igps rcv badqueries; 

103 m freem(m); 

104 return; 

105 } 

106 /* 

107 * Start the timers in all of our membership records for 

108 * the interface on which the query arrived, except those 

109 * that are already running and those that belong to the 

110 7 * "all-hosts" group. 

111 */ 

112 IN FIRST MULTI(step, inm); 

113 while (inm !- NULL) ( 

114 if (inm-»inm ifp == ifp && inm-»inm timer == 0 && 

115 inm-»inm addr.s addr !- igmp all, hosts group) ( 

116 inm-»inm timer = 

117 IGMP RANDOM, DELAY (inm-»inm, addr); 

118 igmp timers are running - 1; 

119 ) 

120 IN NEXT, MULTI(step, inm); 

121 H 

122 break; . 
igmp.c 


图 13-17 IGMP 查 询 报 文 的 输入 处 理 


接受 查询 报 文 并 不 会 立即 引起 IGMP 成 员 报 告 。 相 反 ，igmp_input 为 与 接收 查询 的 接口 相 
关 的 各 个 组 定时 器 设置 一 个 随机 的 值 IGMP_RANDOM_DELAY。 当 某 组 的 定时 器 超时 ， 则 
igmp_fasttimo 发 送 一 个 成 员 关 系 报告 ， 与 此 同时 ， 其 他 所 有 收 到 查询 的 主机 也 进行 同一 动作 。 
一 旦 某 个 主机 上 的 某 个 特定 组 的 随机 定时 器 超时 ， 就 向 该 组 多 播 一 个 报告 。 这 个 报告 将 取消 其 
他 主机 上 的 定时 器 ， 保 证 只 有 一 个 报告 在 网 络 上 多 播 。 路 由 器 与 其 他 组 成 员 一 样 ， 接 收 该 报告 。 
这 个 情况 的 一 个 例外 就 是 “所 有 主机 组 ”。 这 个 组 不 设 定时 器 ， 也 不 发 送 报 告 。 


13.7.2 成 员 关 系 报告 : IGMP HOST MEMBERSHIP REPORT 


接收 一 个 IGMP 成 员 关 系 报告 是 我 们 在 13.1 节 中 提 到 的 不 会 产生 IGMP 报 文 的 两 种 事件 之 
一 。 该 报 文 的 效果 限于 接收 它 的 接口 本 地 。 图 13-18 显 示 了 报 文 处 理 。 

123-146 和 发 送 到 不 正确 多 播 组 的 成 员 关 系 报告 一 样 ， 发 到 环 回 接口 上 的 报告 被 丢弃 。 也 
就 是 说 ， 报 文 必 须 寻 址 到 报 文 内 标识 的 组 。 

不 完整 地 初始 化 的 主机 的 源 地 址 中 可 能 没有 网 络 号 或 主机 号 (或 两 者 都 没有 )。 
igmp_report 查 看 地 址 的 A 类 网 络 部 分 ， 如 果 地 址 的 网 络 或 子 网 部 分 是 0， 这 部 分 一 定 为 0。 
如 果 是 这 种 情况 ， 则 把 源 地 址 设 成 子 网 地 址 ， 其 中 包含 正在 接收 接口 的 网 络 标识 符 和 子 网 标 
识 符 。 这 样 做 的 唯一 原因 是 为 了 通知 子 网 号 所 标识 的 正在 接收 接口 上 的 某 个 进程 级 守护 程序 。 

如 果 接 收 接口 属于 被 报告 的 组 ， 就 把 相关 的 报告 定时 器 重新 设 成 0。 从 而 使 发 给 该 组 的 第 
一 个 报告 能 够 制止 其 他 主机 发 布 报告 。 路 由 器 只 需 知 道 网 络 上 至 少 有 一 个 接口 是 组 的 成 员 ， 
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就 无 需 维护 一 个 明确 的 组 成 员 表 或 计数 器 。 





igmp.c 

123 case IGMP HOST. MEMBERSHIP REPORT: 

124 -«*igmpstat.igps rcv reports; 

125 if (ifp -- &loif) 

126 break; 

127 if (!IN MULTICAST(ntohl(igmp--igmp group.s addr)) |l 

128 igmp--igmp group.s addr !- ip-»ip dst.s addr) ( 

129 --igmpstat.igps rcv badreports; 

130 m freem(m); 

131 return; 

132 H 

133 /* . 

134 * KLUDGE: if the IP source address of the report has an 

135 * unspecified (i.e., zero) subnet number, as is allowed for 

136 * a booting host, replace it with the correct subnet number 

137 * so that a process-level multicast routing demon can 

138 .* determine which subnet it arrived from. This is necessary 

139 * to compensate for the lack of any way for a process to 

140 * determine the arrival interface of an incoming packet. 

141 */ 

142 if ((ntohl(ip-»ip src.s addr) & IN CLASSA NET) -- 0) ( 

143 IFP TO IA(ifp, ia); 

144 if (ia) 

145 ip-»ip.src.s addr = htonl(ia-»ia subnet); 

146 ) 

147 /* 

148 * If we belong to the group being reported, stop 

149 * our timer for that group. 

150 */ 

151 IN LOOKUP MULTI(igmp-»igmp group, ifp, inm); 

152 if (inm != NULL) ( 

153 inm-»inm timer = O0; 

154 4*igmpstat.igps rcv ourreports; 

155 ) 

156 break; . 
igmp.c 





图 13-18 IGMP 报 告 报 文 的 输入 处 理 


13.8 离开 一 个 组 : igmp leavegroupif24 


我 们 在 12 章 中 看 到 ， 当 in_multi 结 构 中 的 引用 计数 器 跳 到 0 时 ，in_delmulti 调 用 
igmp_leavegroup。 如 图 13-19 所 示 。 








179 void Bmp.C 

180 igmp_leavegroup (inm) 

181 struct in_multi *inm; 

182 { 

183 /* 

184 * No action required on leaving a group. 

185 */ 

186 ) . 
igmp.c 


图 13-19 igmp leavegroupi&Zk 
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179-186 当 一 个 接口 离开 一 个 组 时 ，IGMP 设 有 采取 任何 动作 。 不 发 明确 的 通知 一 一 下 一 次 
多 播 路 由 器 发 布 IGMP 查 询 时 ， 接 口 不 为 该 组 生成 IGMP 报 告 。 如 果 没 有 为 某 个 组 生成 报告 ， 
则 多 播 路 由 器 就 假定 所 有 接口 已 经 离开 该 组 ， 并 停止 把 到 该 组 的 分 组 在 网 络 上 多 播 。 

如 果 当 一 个 报告 被 挂 起 时 ， 接 口 离开 了 该 组 (就 是 说 ， 此 时 组 的 报告 定时 器 正在 计时 )， 就 
不 再 发 送 该 报告 ， 因 为 当 icmp_leavegroup 返 回 时 ，in_delmulti( 图 12-36) 已 经 把 组 的 
定时 器 及 其 相关 的 in_multi 结 构 丢掉 了 。 


13.9 小 结 


本 章 我 们 讲述 了 IGMP，IGMP 在 一 个 网 络 上 的 主机 和 路 由 器 之 间 传 递 IP 多 播 成 员 信 息 。 
当 一 个 接口 加 入 一 个 组 时 ， 或 按照 多 播 路 由 器 发 布 的 IGMP 报 告 查询 报 文 的 要 求 ， 生 成 IGMP 

设计 IGMP 使 交换 成 员 信 息 所 需要 的 报 文 数 最 少 : 

。 当 主机 加 入 一 个 组 时 ， 宣 布 它们 的 成 员 关 系 ; 

。 对 成 员 关 系 查询 的 响应 被 推迟 一 个 随机 的 时 间 ， 而 且 第 一 个 响应 抑制 了 其 他 的 响应 ; 

。 当 主机 离开 一 个 组 时 ， 不 发 通知 报 文 ; 

。 每 分 钟 发 的 成 员 查 询 不 超过 一 次 。 

多 播 路 由 器 与 其 他 路 由 器 共享 自己 收集 的 IGMP 信 息 ( 第 14 章 )， 以 便于 把 多 播 数 据 报 传 给 
多 播 目 的 组 的 远程 成 员 。 
习题 

13.1 为 什么 不 需要 响应 在 环 回 接口 上 到 达 的 IGMP 查 询 ? 


13.2 验证 图 13-15 中 226 到 229 行 的 假设 。 
13.3. 对 在 点 到 点 网 络 接口 上 到 达 的 成 员 关 系 查询 ， 是 否 有 必要 设置 随机 的 延迟 时 间 ? 


第 14 章 IP 多 播 选 路 


14.1 引言 


前 面 两 章 讨 论 了 在 一 个 网 络 上 的 多 播 。 本 章 我 们 讨论 在 整个 互联 网 上 的 多 播 。 我 们 将 
讨论 mrouted 程 序 的 执行 ， 该 程序 计算 多 播 路 由 表 ， 以 及 在 网 络 之 间 转 发 多 播 数 据 报 的 内 
核 函 数 。 

从 技术 上 说 ， 多 播 分 组 (packet) 被 转发 。 本 章 我 们 假定 每 个 多 播 分 组 中 都 包含 一 

个 完整 数据 报 ( 也 就 是 说 ， 没 有 分 片 )， 所 以 我 们 只 用 名 词 数据 报 (datagram)。Net/3 转 


发 IP 分 片 ， 也 转发 IP 数 据 报 。 


图 14-1 是 mrouted 的 几 个 版 本 及 它们 和 BSD 
版 本 的 对 应 关系 。mrouted 版 本 包括 用 户 级 守护 12 修改 4.3 BSD Tahoe 版 本 
包括 在 4.4 BSD 和 Net3 中 









程序 和 内 核 级 多 播 程序 。 修改 SunOS 4.1.3 
IP 多 播 技术 是 一 个 活跃 的 研究 和 开发 领域 。 
本 章 讨论 包括 在 Net/3 中 的 多 播 软件 的 2.0 版 ， 但 图 14-1 mrouted 和 和 IP 多 播 版 本 


被 认为 已 经 过 时 了 。3.3 版 的 发 行 还 有 一 段 时 间 ， 因 此 无 法 在 本 书 中 完整 地 讨论 ， 但 我 们 在 整 
个 过 程 中 将 指出 3.3 版 本 的 一 些 特点 。 

因为 还 没有 广泛 安装 商用 多 播 路 由 器 ， 所 以 常用 多 播 隧 道 连接 标准 IP 单 播 互 联网 上 的 两 
个 多 播 路 由 器 ， 构 造 多 播 网 络 。Net/3 支 持 多 播 隧道 ， 并 采用 宽松 源 站 记录 路 由 (LSRR，Loose 
Source Record Route) 选 项 (9.6 节 ) 构 造 多 播 隧道 。 一 种 更 好 的 隧道 技术 把 IP 多 播 数据 报 封装 在 
一 个 单 播 数 据 报 里 ，3.3 版 的 多 播 程序 支持 这 一 技术 ， 但 NeV3 不 支持 。 

与 第 12 章 一 样 ， 我 们 用 通常 名 称 运输 层 协 议 代 指 发 送 和 接收 多 播 数据 报 的 协议 ， 但 UDP 
是 唯一 支持 多 播 的 Internet 协 议 。 - 


14.2 代码 介绍 

本 章 讨论 的 三 个 文件 显示 在 图 14-2 中 。 
ITUUTE 
netinet/ ip mroute.c | 多 播 选 路 函数 
netinet/raw ip.c 多 播 选 路 选项 


图 14-2 本 章 讨论 的 文件 












14.2.4 全 局 变量 


多 播 选 路 程序 所 使 用 的 全 局 变量 显示 在 图 14-3 中 。 
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cached mrt struct mrt 多 播 选 路 的 “后 面 一 个 ”高 速 缓存 
cached origin u. long “后 面 一 个 ” 高速 缓存 的 多 播 组 
cached originmask | u, long “后 面 一 个 ”高 速 缓存 的 多 播 组 的 掩 码 . 


mrtstat struct mrtstat | 多 播 选 路 统计 

mrttable struct mrt *[] | 指向 多 播 路 由 器 的 指针 的 散 列表 
numvifs vifi t 允许 的 多 播 接口 数 

viftable struct vif[] 虚拟 多 播 接口 的 数组 


图 14-3 本 章 介 绍 的 全 局 变量 





14.2.2 统计 量 


多 播 选 路 程序 收集 的 所 有 统计 信息 都 放 在 图 14-4 的 mrtstat 结 构 中 。 图 14-5 是 在 执行 
netstat -gs 命令 后 ， 输 出 的 统计 信息 。 


mrtstat 成 员 


mrts mrt lookups 查找 的 多 播 路 由 数 
mrts mrt, misses 高 速 缓存 丢失 的 多 播 路 由 数 
mrts_grp_lookups | 查找 的 组 地 址 数 


mrts_grp_misses 高 速 缓存 丢失 的 组 地 址 数 
mrts_no_route 查找 失败 的 多 播 路 由 数 

mrts, bad tunnel 有 错误 的 隧道 选项 的 分 组 数 
mrts_cant_tunnel 没有 空间 存放 隧道 选项 的 分 组 数 





图 14-4 本 章 收集 的 统计 量 


multicast routing: 

329569328 multicast route lookups 

9377023 multicast route cache misses 
242754062 group address lookups 
159317788 group address cache misses 
65648 datagrams with no route for origin 

0 datagrams with malformed tunnel options 
0 datagrams with no room for tunnel options 


图 14-5 IP 多 播 路 由 选择 统计 的 例子 


这 些 统计 信息 来 自 一 个 有 两 个 物理 接口 和 一 个 隧道 接口 的 系统 。 它 们 说 明 ，98% 的 时 间 ， 
在 高 速 绿 存 中 发 现 多 播 路 由 。 组 地 址 高 速 缓 存 的 效率 稍 低 一 些 ， 最 高 只 有 34%。 图 14-34 描 述 
了 路 由 缓存 ， 图 14-21 描 述 了 组 地 址 高 速 缓存 。 


14.2.8 ” SNMP 变量 





















mrts mrt, lookups 
mrts mrt misses 
mrts, grp lookups 
mrts, grp misses 
mrts no route 
mrts, bad tunnel 
mrts, cant, tunnel 










多 播 选 路 没有 标准 的 SNMP MIB, 但 [McCloghriefflFarinacci 1994] 和 [McCloghrie 和 
Farinacci 1994b] 描述 一 些 多 播 路 由 器 的 实验 MIB。 


14.3 多 播 输出 处 理 ( 续 ) 
12.15 节 讲 到 如 何 为 输出 的 多 播 数据 报 选 择 接口 。 我 们 看 到 在 ip_moptions 结 构 中 
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ip_output 被 传 给 一 个 明确 的 接口 ， 或 者 ip_output 在 路 由 表 中 查找 目的 组 ， 并 使 用 在 路 
由 入 口中 返回 的 接口 。 

如 果 在 选择 了 输出 的 接口 后 ，ip_output 回 送 该 数据 报 ， 就 把 它 放 在 所 选 输出 接口 等 待 
输入 处 理 ， 当 ipintr 处 理 它 时 ， 把 它 当 作 是 要 转发 的 数据 报 。 图 14-6 显 示 了 这 个 过 程 。 


传输 协议 


1 
| 
1 
1 
1 
| 
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传输 协议 


ip mloopback»«- - 一 





ipintrq: H 





隧道 以 人 网 
图 14-6 有 环 回 的 多 播 输出 处 理 


在 图 14-6 中 ， 虚 线 箭头 代表 原始 输出 的 数据 报 ， 本 例 是 本 地 以 太 网 上 的 多 播 。 
ip_mloopback 创 建 的 备份 由 带 箭头 的 细 线 表示 ; 并 作为 输入 被 传 给 运输 层 协 议 。 当 
ip_mforward 决 定 通 过 系统 上 的 另 一 个 接口 转发 该 数据 报时 ， 就 产生 第 三 个 备份 。 图 14-6 中 
最 粗 的 箭头 代表 第 三 个 备份 ， 在 多 播 障 道上 发 送 。 

如 果 数 据 报 不 是 回 送 的 ， 则 ip_output 把 
它 直 接 传 给 ijp_mforward，ip_mforward 复 
制 并 处 理 该 数据 报 ， 就 像 它 是 从 ip_output | 
选 定 的 接口 上 收 到 的 一 样 。 图 14-7 显 示 了 这 个 

一 日 ip_mforward 调 用 ip_output 发 送 
多 播 数据 报 ， 它 就 把 ITP_FORWARDING 置 位 ， 
这 样 ，ip_output 就 不 再 把 数据 报 传 回 给 ne 的 本 
ipb_mforward， 以 免 导 致 无 限 循环 。 

图 12-42 显 示 了 ip_mloopback。14.8 节 
描述 了 ip_mforward。 


14.4 mrouted 守 护 程 序 


用 户 级 进程 nroutead 守 护 程序 允许 和 管理 多 播 路 由 选择 。mrouted 实 现 IGMP 协 议 的 路 
由 部 分 ， 并 与 其 他 多 播 路 由 器 通信 ， 实 现 网 络 间 的 多 播 路 由 选择 。 路 由 算法 在 mrouted 上 实 
现 ， 但 内 核 维护 多 播 路 由 选择 表 ， 并 转发 数据 报 。 

本 书 中 我 们 只 讨论 支持 mrouted 的 内 核 数 据 结 构 和 函数 一 一 不 讨论 mrouted 本 身 。 我 们 
讨论 用 干 为 数据 报 选 择 路 由 的 截断 逆向 路 径 广 播 TRPB(Truncated Reverse Path Broadcast) 算 法 
[DeeringfüCheriton 1990]， 以 及 用 于 在 多 播 路 由 器 之 间 传 递 信息 的 距离 向 量 多 播 选 路 协议 
DVMRP。 我 们 力求 使 读者 了 解 内 核 多 播 程序 的 工作 原理 。 





图 14-7 没有 环 回 的 多 播 输出 处 理 
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RFC 1075 [Waitzman, Partidge 和 Deering1988] 是 DYMRP 的 一 个 老 版 本 。mrouted 实 现 
了 一 个 新 的 DYMRP， 还 没有 用 RFC 文 档 写 出 来 。 目 前 ， 该 算法 和 协议 的 最 好 的 文档 是 
mrouted 发 布 的 源 代码 。 附 录 B 指 出 在 哪里 能 找到 到 源 代码 。 

mrouted 守 护 程序 通过 在 一 个 IGMP 揪 口上 设置 选项 与 内 核 通信 (第 32 章 )。 这 些 选 项 总 结 
在 图 14-8 中 。 


DVMRP_INIT ip_mrouter_init mrouted 开 始 


DVMRP_ DONE ip mrouter, done | mrouted 被 关闭 
DVMRP_ADD_VIF struct vifctl add, vif 增加 虚拟 接口 


DVMRP DEL VIF vifi t del vif 删除 虚拟 接口 
DVMRP ADD LGRP | struct lgrplctl | add lgrp 为 某 个 接口 增加 多 播 组 入 日 
DVMRP DEL LGRP | struct lgrplctl | del lgrp 为 某 个 接口 删除 多 播 组 入 口 
DVMRP ADD MRT "struct mrtctl add mrt 增加 多 播 路 由 
DVMRP DEL MRT struct in addr del mrt 删除 多 播 路 由 








图 14-8 多 播 路 由 插口 选项 


图 14-8 显 示 的 插口 选项 被 setsockopt 系 统 调用 传 给 rip_ctloutput(32.8 节 )。 图 14-9 
显示 了 处 理 DVMRP_xxx 选项 的 rip_ctloutput 部 分 。 


173 case 
174 case 
175 case 
176 case 
177 case 
178 case 
179 case 
180 case 
181 
182 
183 
184 
185 
186 
187 
173-187 


raw. ip.c 
DVMRP INIT: 


DVMRP. DONE: 
DVMRP ADD VIF: 
DVMRP. DEL VIF: 
DVMRP, ADD, LGRP: 
DVMRP DEL LGRP: 
DVMRP. ADD MRT: 
DVMRP DEL MRT: 
if (op == PRCO SETOPT) ( 

error = ip.mrouter cmdí(optname, so, *m); 

if (*m) 

(void) m free(*m); 

) eise 

error - EINVAL; 


return (error); . 
raw p.c 


图 14-9 rip ctloutput&RZE: DVMRP xxx 插口 选项 


当 调 用 setsockopt 时 ，op 等 于 PRCO_SETOPT， 而 且 所 有 选项 都 被 传 给 


ijp_mrouter_cmd 函 数 。 对 于 getsockopt 系 统 调用 ，op 等 于 PRCO_GETOPT; 对 所 有 选项 
都 返回 EINVRAL 。 
图 14-10 显 示 了 ip_mrouter_cmdq 国 数 。 


84 
85 
86 
87 
88 
89 
90 


int 


ip mroute.c 


ip mrouter cmd(cmd, so, m) 


int 


cmd; 


struct socket *so; 
struct mbuf *m; 


( 
int 


error - 0; 
14-10 ip_mrouter_cmd 国 数 
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91 
92 
93 
94 


95 
96 
97 


98 
99 
100 


101 
102 
103 
104 
105 
106 


107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 


119 
120 
121 
122 
123 
124 


125 
126 
127 
128 
129 
130 


131 
132 
133 
134 
135 
136 


137 
138 
139 
140 
141 
142 
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if (cmd !- DVMRP INIT && so != ip mrouter) 
error - EACCES; 

else 
switch (cmd) ( 


case DVMRP INIT: 
error = ip mrouter init(so); 
break; 


case DVMRP. DONE: 
error = jp mrouter, done(); 
break; 


case DVMRP.ADD VIF: 
if (m == NULL [| m-»m, len < sizeof(struct vifctl)) 
error - EINVAL; 
else 
error - add vif(mtod(m, struct vifctl *)); 
break; 


case DVMRP DEL, VIF: 
if (m == NULL || m-»m len < sizeof(short)) 
error - EINVAL; 
eise 
error = del, vif(mtod(m, vifi.t *)); 
break; 
case DVMRP, ADD, LGRP: 
if (m == NULL || m-»m len < sizeof(struct lgrplct1)) 
error = EINVAL; 
else 
error = add lgrp(mtod(m, struct lgrplctl *)); 
break: 


case DVMRP, DEL LGRP: 
if (m == NULL || m-»m len < sizeof(struct lgrpictl)) 
error - EINVAL; 
else 
error = del, lgrp(mtod(m, struct l1grplctl *)); 
break; 


case DVMRP, ADD MRT: 
if (m == NULL || m-»m len < sizeof(struct mrtctl)) 
error = EINVAL; 
else 
error - add mrt(mtod(m, struct mrtctl *)); 
break; 


case DVMRP, DEL MRT: 
if (m == NULL || m-»m len < sizeof(struct in,addr)) 
error - EINVAL; 


else 
error = del, mrt(mtod(m, struct in_addr *)); 
break; 
default: 
error - EOPNOTSUPP; 
break; 


) 


return (error); 


图 14-10 (5 


ip mroute.c 
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这 些 “ 选 项 ”更 像 命令 ， 因 为 它们 引起 内 核 更 新 多 个 数据 结构 。 本 章 后 面 我 们 
将 使 用 命令 (command) 一 词 强 调 这 个 事实 。 
84-92 mrouted 发 布 的 第 一 个 命令 必须 是 DVMRP_INIT。 后 续 命令 必须 来 自发 布 
DVMRP_INIT 的 同一 插口 。 当 在 其 他 插口 上 发 布 其他 命令 上 时， 返回 EACCES。 
94-142 ”switch 语句 的 每 个 case 语 名 检查 每 条 命令 中 的 数据 量 是 否 正确 ， 然 后 调用 匹配 函 
数 。 如 果 不 能 识别 该 命令 ， 则 返回 EOPNOTSUPP。 任 何 从 匹配 函数 返回 的 错误 都 在 error 中 


发 布 ， 并 在 函数 的 最 后 返回 。 
初始 化 时 ，mrouted 发 布 DVMRP_INIT 命 令 ， 调 用 图 14-11 显 示 的 ijp_mrouter_init。 


ip_mroute.c 
146 static int 
147 ip mrouter init(so) 
148 struct socket *so; 
149 ( 
150 if (so-»so type != SOCK RAW |! 
151 So-»so proto-»pr protocol !- IPPROTO IGMP) 
152 return (EOPNOTSUPP); 
153 if (ip mrouter !- NULL) 
154 return (EADDRINUSE); 
155 ip mrouter = So; 
156 return (0); 
157 ) . 

ip mroute.c 


图 14-11 ip mrouter inittAZÉ: DVMRP_INIT 命 令 
146-157 如果 不 是 在 某 个 原始 IGMP 播 口上 发 布 命令 ， 或 者 如 果 DVMRP_INIT 已 经 被 置 位 ， 
则 分 别 返 回 EOPNOTSUPP 和 EADDRINUSE。 全 局 变量 ip_mrouter 保 存 指向 某 个 插口 的 指针 ， 
初始 化 命令 就 是 在 该 插口 上 发 布 的 。 必 须 在 该 插口 上 发 布 后 续 命令 。 以 避免 多 个 mrouted 进 
程 的 并 行 操作 。 
下 面 几 节 讨 论 其 他 DVMRP_xxx 命 令 。 


14.5 虚拟 接口 


当 作为 多 播 路 由 器 运行 时 ，Net/3 接 收 到 达 的 多 播 数据 报 ， 复 制 它们 ， 并 在 一 个 或 多 个 接 
口上 转发 备份 。 通 过 这 种 方式 ， 数 据 报 被 转发 给 互联 网 上 的 其 他 多 播 路 由 器 。 





任意 实现 LSRR 的 单 播 P 路 由 器 集 网 络 B 
srczHS src-HS SrczHS 
, dst-G dstzT, dst=G 
P 没有 LSRR 的 IP 单 播 没有 LSRR 的 
便 件 多 播 LSRR = (TS,G) 硬件 多 播 


图 14-12 多 播 隧道 
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输出 的 接口 可 以 是 一 个 物理 接口 ， 也 可 以 是 一 个 多 播 有 隧道 。 多 播 隧 道 的 两 端 都 与 一 个 多 
播 路 由 器 上 的 某 个 物理 接口 相关 。 多 播 隧道 使 两 个 多 播 路 由 器 ， 即 使 被 不 能 转发 多 播 数据 报 
的 路 由 器 分 隔 ， 也 能 够 交换 多 播 数据 报 。 图 14-12 是 一 个 多 播 隧道 连接 的 两 个 多 播 路 由 器 。 

图 14-12 中 ， 网 络 A 上 的 源 主机 HS 正在 向 组 G 多 播 数 据 报 。 组 G 的 唯一 成 员 在 网 络 B 上， 并 
通过 一 个 多 播 隧道 连接 到 网 络 A。 路 由 器 A 接收 多 播 (因为 多 播 路 由 器 接收 所 有 多 播 )， 查 询 它 
的 多 播 路 由 选择 表 ， 并 通过 多 播 隧 道 转发 该 数据 报 。 

隧道 的 开始 是 路 由 器 A 上 的 一 个 物理 接口 ， 以 IP 单 播 地 址 T, 标 识 。 隧 道 的 结束 是 网 络 B 上 
的 一 个 物理 接口 ， 以 IP 单 播 地 址 7 标识。 隧道 本 身 是 一 个 任意 复杂 的 网 络 ， 由 实现 LSRR 选 项 
的 IP 单 播 路 由 器 连接 起 来 。 图 14-13 显 示 IP LSRR 选 项 如 何 实现 多 播 隧道 。 








一 一 


在 隧道 上 
在 路 由 器 B 上 ip_dooptions 之 后 
在 路 由 器 B 上 ip_mforward 之 后 


图 14-13 LSRR 多 播 隧道 选项 


图 14-13 的 第 一 行 是 HS 在 网 络 A 上 发 送 的 多 播 数据 报 。 路 由 器 A 全 部 接收 ， 因 为 多 播 路 由 
器 接收 本 地 连接 的 网 络 上 的 所 有 数据 报 。 

为 通过 隧道 发 送 数据 报 ， 路 由 器 A 在 耻 首 部 插入 一 个 LSRR 选 项 。 第 二 行 是 在 隧道 上 离开 
A 时 的 数据 报 。LSRR 选 项 的 第 一 个 地 址 是 隧道 的 源 地 址 ， 第 二 个 地 址 是 目的 多 播 组 地 址 。 数 
据 报 的 目的 地 址 是 7 一 一 隧道 的 另 一 端 。LSRR 偏 移 指 向 目的 组 。 

经 过 隧道 的 数据 报 被 转发 ， 通 过 互联 网 ， 直 到 它 到 达 路 由 器 B 上 的 隧道 的 另 一 端 。 

该 图 中 的 第 三 行 是 被 路 由 器 B 上 的 ip_qooptions 处 理 之 后 的 数据 报 .。 记得 第 9 章 中 讲 到 ， 
ip_dooptions 在 ipintr 检 查 数据 报 的 目的 地 址 之 前 处 理 LSRR 选 项 。 因 为 数据 报 的 目的 地 
址 (T,) 和 路 由 器 B 上 的 一 个 接口 匹配 ， 所 以 jp_dooptions 把 由 选项 偏 移 (本 例 中 是 G) 标 识 的 
地 址 复制 到 IP 首 部 的 目的 地 址 字段 。 在 选项 内 ，G 被 ip_rtaddr 返 回 的 地 址 取代 ， 
ip_rtaddr 通 常 根据 下 目 的 地 址 (本 例 中 是 G) 为 数据 报 选 择 输出 的 接口 。 这 个 地 址 是 不 相关 
的 ， 因 为 ijp_mforward 将 丢弃 整个 选项 。 最 后 ，ip_dooptions 把 选项 偏 移 向 前 移动 。 

图 14-13 的 第 四 行 是 ijpintr 调 用 ip_mforward 之 后 的 数据 报 。 在 那里 ，LSRR 选 项 被 识 
别 ， 并 从 数据 报 首部 中 移 走 。 得 到 的 数据 报 看 起 来 就 象 原始 多 播 数 据 报 ， 由 ip_mforward 
处 理 它 ， 把 它 作 为 多 播 数据 报 在 网 络 B 上 转发 ， 并 被 HG 收 到 。 

用 LSRR 构 造 的 多 播 隧道 已 经 过 时 了 。 因 为 1993 年 3 月 发 布 了 mrouted 程 序 ， 该 程序 通过 
在 IP 多 播 数据 报 的 首部 前 面 加 上 另 一 个 IP 首 部 来 构造 隧道 。 新 IP 首 部 的 协议 设置 为 4， 表 明 分 
组 的 内 容 是 另 一 个 IP 分 组 。 有 关 这 个 值 的 文档 在 RFC 1700 一 一 “IP 中 的 IP” 协 议 中 。 新 版 本 
的 mrouted 程 序 为 了 向 后 兼容 ， 也 支持 LSRR 隧 道 。 


14.5.1 虚拟 接口 表 


无 论 物理 接口 还 是 隧道 接口 ， 内 核 都 为 其 在 虚拟 接口 (virtual interface) 表 中 维护 一 个 入 口 ， 
其 中 包含 了 只 有 多 播 使 用 的 信息 。 每 个 虚拟 接口 都 用 一 个 vif 结 构 表 示 ( 图 14-14)。 全 局 变量 
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viftable 是 一 个 这 种 结构 的 数组 。 数 组 的 下 标 保存 在 无 符号 短 整 数 vifi_t 变 量 中 。 


105 struct vif 
106 u char 
107 u char 
108 struct 
109 struct 
110 struct 
111 struct 
112 int 
113 int 
114 u, long 
115 int 
116 ); 
105-110 


( 


v flags; /* 
v. threshold; /* 
in addr v, lcl addr;  /* 
in addr v rmt addr;  /* 
ifnet *v ifp; /* 
in_addr *v, lcl grps; /* 
v lcl,.grps,max; /* 
v lcl.grps.n; /* 
v cached group; /* 
v. cached result; /* 


ip mroute.h 


VIFE flags */ 

min ttl required to forward on vif */ 
local interface address */ 

remote address (tunnels only) */ 
pointer to interface */ 

list of local grps (phyints only) */ 
malloc'ed number of v lcl grps */ 
used number of v lcl, grps */ 

last grp looked-up (phyints only) */ 
last look-up result (phyints only) */ 


ip mroute.h 


图 14-14 vif 结 构 


为 v_flags 定 义 的 唯一 的 标志 位 是 VIFF_TUNNEL 。 被 置 位 时 ， 该 接口 是 一 个 到 


远程 多 播 路 由 器 的 隧道 。 没 有 置 位 时 ， 接 口 是 在 本 地 系统 上 的 一 个 物理 接口 。v_threshold 
是 我 们 在 12.9 节 描述 的 多 播 阀 值 。v_1lc1li_addr 是 与 这 个 虚拟 接口 相关 的 本 地 接口 的 PP 地址。 
v_rmt_addr 是 一 个 IP 多 播 隧道 远 端 的 单 播 IP 地 址 。v_1lcli_addr 或 者 V_rmt_aqdqr 为 非 零 ， 
但 不 会 两 者 都 为 非 零 。 对 物理 接口 ，v_i fp 非 空 ， 并 指向 本 地 接口 的 1 fnet 结 构 。 对 隧道 ， 


v_ifp 是 空 的 。 


viftable[0] 


viftable[1] 


viftable[2] 


viftable[3] 


到 


viftable[31] | 


viftable: 





in addr() 


图 14-15 viftable 数 组 
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111-116 v_lcl_grps 指 向 一 个 IP 多 播 组 地 址 数组 ， 这 个 数组 记录 了 在 连 到 的 接口 上 的 成 
员 组 列表 。 对 隧道 来 说 ，v_Lc1_grps 总 是 空 的。 数组 的 大 小 保存 在 v_1c1_grps_max 中 ， 
被 使 用 的 入 口 数 保 存在 v_1cl1_grps_n 中 。 数 组 随 着 组 成 员 关 系 表 的 增 大 而 增长 。 
v_cached_group 和 v_cached_result 实 现 “ 一 个 人 口 ”高 速 缓存 ， 其 中 记录 的 是 最 近 
一 次 查找 得 到 的 组 。 

图 14-15 说 明了 viftable， 它 最 多 有 32 个 (MAXVIFS) 入 口 。viftable[2] 是 正在 使 用 的 
最 后 一 个 人 口 ， 所 以 numvifs 是 3。 编 译 内 核 时 国定 了 表 的 大 小 。 图 中 还 显示 了 表 的 第 一 个 
入 口 的 vif 结 构 的 几 个 成 员 。v_ifp 指 向 一 个 ijfnet 结 构 ，v_1lc1l_grps 指 向 jn_addr 结 构 中 
的 一 个 数组 。 数 组 有 32(v_1c1_grps_max) 个 人口 ， 其 中 只 用 了 4 个 (v_1c1_grps_n)。 

mrouted 通 过 DVMRP_ADD_VIF 和 DVMRP_DEL_VIF 命 令 维护 viftable。 通 常 ， 当 
mrouted 开 始 运 行 时 ， 会 把 本 地 系统 上 有 多 播 能 力 的 接口 加 入 表 中 。 当 mrouted 阅 读 自 己 的 
配置 文件 ， 通 常 是 /etc/mrouted.conf 时 ， 会 把 多 播 隧 道 加 入 表 中 。 这 个 文件 中 的 命令 也 
可 能 从 虚拟 接口 表 中 删除 物理 接口 ， 或 者 改变 与 接口 有 关 的 多 播 信息 。 

mrouted 用 DVMRP_ADD_VIF 命 令 把 ct1 结 构 ( 图 14-16) 传 给 内 核 。 它 指示 内 核 在 虚拟 接 
口 表 中 加 入 一 个 接 日 项 。 


- ip_mroute.h 
76 struct vifctl { 
77 vifi t vifo vifi: /* the index of the vif to be added */ 
78 u char vifc flags; /* VIFF_ flags (Figure 14.14) */ 
79 u char vifc threshold; /* min ttl required to forward on vif */ 
80 struct in_addr vifc, lcl, addr; /* local interface address */ 
81 Struct in addr vifc rmt addr; /* remote address (tunnels only) */ 
82 ; ' . 

ip mroute.h 





图 14-16 vifct1 结 构 


78-82 vifc_vifi 识 别 viftable 中 虚拟 接口 的 下 标 。 其 他 4 个 成 员 ，vifc_flags、 
vifc threshold, vifc lcl  addrfllvifc rmt addr, dkada vitgAMEC Hajvi fA. 


14.5.2 add vifiRÉ* 


图 14-17 是 adqd_vif 函 数 。 





—— ip mroute.c 
202 static int 


203 add vif(vifcp) 
204 struct vifctl *vifcp; 


205 ( 

206 struct vif *vifp = viftable + vifcp-»vifc, vifi; 
207 struct ifaddr *ifa; 

208 struct ifnet *ifp; 

209 struct ifreq ifr; 

210 int error, 8; 

211 Static struct sockaddr in sin - 
212 (sizeof(sin), AF. INET); 

213 if (vifcp-»vifc vifi »- MAXVIFS) 
214 return (EINVAL); 

215 if (vifp-»v. lcl addr.s addr !- 0) 
216 return (EADDRINUSE); 


图 14-17 add vif š: DVMRP ADD VIFA 
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217 /* Find the interface with an address in AF INET family */ 
218 sin.sin addr = vifcp-»vifc. lcl addr; 
219 ifa - ifa ifwithaddr((struct sockaddr *) &sin); 
220 if (ifa == 0) 
221 return (EADDRNOTAVAIL); 
222 s = splnet(); 
223 if (vifcp-»vifc flags & VIFF TUNNEL) 
224 vifp-»v rmt addr = vifcp-»vifc rmt addr; 
225 else ( 
226 /* Make sure the interface supports multicast */ 
227 ifp = ifa-»ifa ifp: 
228 if ((ifp-»if flags & IFF MULTICAST) == 0) ( 
229 spix(s); 
230 return (EOPNOTSUPP); 
231 } 
232 /* 
233 * Enable promiscuous reception of all IP multicasts 
234 * from the interface. 
235 */ 
236 satosin(&ifr.ifr addr)-»sin family = AF, INET; 
237 satosin(&ifr.ifr addr)-»sin addr.s  addr = INADDR ANY; 
238 error - (*ifp-»if ioctl) (ifp, SIOCADDMULTI, (caddr t) & ifr); 
239 if (error) ( 
240 Splx(s); 
241 return (error); 
242 ) 
243 } 
244 vifp->v_flags = vifcp-»vifc flags; 
245 vifp-»v threshold = vifcp-»vifc, threshold; 
246 vifp-»v, lcl addr = vifcp-»vifc lcl addr; 
247 vifp-»v ifp = ifa-»ifa ifp; 
248 /* Adjust numvifs up if the vifi is higher than numvifs */ 
249 if (numvifs «- vifcp-»vifc vifi) 
250 numvifs = vifcp-»vifc vifi + 1; 
251 splx (s); 
252 return (0); 
253 Y OU 一 加 mroxtec 
图 14-17 ( 续 ) 
1. 验证 下 标 


202-216 ”如 果 mrouted 指 定 的 vifc_vifi 中 的 下 标 太 大 ， 或 者 该 表 入 口 已 经 被 使 用 ， 则 
SANE [B] EINVALgEEADDRINUSE, 


2. 本 地 物理 接口 
217-221 ifa ifwithaddr 取 得 vifc_lcl_addr 中 的 单 播 卫 地 址 ， 并 返回 一 个 指向 相关 


ifnet 结 构 的 指针 。 这 就 标识 出 这 个 虚拟 接口 要 用 的 物理 接口 。 如 果 没 有 匹配 的 接口 ， 返 回 
EADDRNOTAVAIL., 
3. 配置 隧道 接口 
222-224 对 于 隧道 ， 它 的 远 端 地 址 被 从 vifct1l1 结 构 中 复制 到 接口 表 的 vif 结 构 中 。 
4. 配置 物理 接口 
225-243 对 于 物理 接口 ， 链 路 级 驱动 程序 必须 支持 多 播 。SIOCADDMULTI 命 令 与 
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INADDR_ANY 一 起 配置 接口 ， 开 始 接收 所 有 卫 多 播 数据 报 (图 12-32)， 因 为 它 是 一 个 多 播 路 由 
器 。 当 ipintz 把 到 达 数 据 报 传 给 1p_mftorward 时 ， 被 ip_mftorward 转 发 。 

5. 保存 多 播 信 息 
244-253 其 他 接口 信息 被 从 vifctl 结 构 复 制 到 vif 结 构 。 如 果 需 要 ， 更 新 numvifts， 记 
录 正 在 使 用 的 虚拟 接口 数 。 


14.5.3 del vif 


图 14-18 显 示 的 de1l_vif 函 数 从 虚拟 接口 表 中 删除 表 项 。 当 mr outed 设 置 DVMRP_ 
DEL_VIF 命 令 时 ， 调 用 该 函数 。 

1. 验证 下 标 
257-268 ”如 果 传 给 del_vif 的 下 标 大 于 正在 使 用 的 最 大 下 标 ， 或 者 指向 一 个 没有 使 用 的 入 
口 ， 则 分 别 返 回 EINVAL 和 EADDRNOTAVAIL。 





257 static int ip_mroute.c 
258 del vif(vifip) 
259 vifi t *vifip; 
260 ( 
261 Struct vif *vifp = viftable + *vifip; 
262 Struct ifnet *ifp; 
263 int i, 8; 
264 struct ifreqg ifr; 
265 if (*vifip »- numvifs) 
266 return (EINVAL); 
267 if (vifp-»v lcl addr.s,addr == 0) 
268 return (EADDRNOTAVAIL); 
269 S = splnet(); 
270 if (!(vifp-»v flags & VIFF TUNNEL)) ( 
271 if (vifp-»v lcl grps) 
272 free(vifp-»v lcl grps, M MRTABLE); 
273 satosin(&ifr.ifr addr)-»sin family = AF INET; 
274 satosin(&ifr.ifr addr)-»sin addr.s, addr = INADDR, ANY; 
275 ifp - vifp-»v ifp; 
276 (*ifp-»if ioctl) (ifp, SIOCDELMULTI, (caddr t) & ifr); 
277 J 
278 bzero((caddr t) vifp, sizeof(*vifp)); 
279 /* Adjust numvifs down */ 
280 for (i - numvifs - 1; i »- 0; i--) 
281 if (viftable[il.v lcl addr.s, addr !- 0) 
282 break; 
283 numvifs = i + 1; 
284 Ssplx(s); 
285 return (0); 
286 ) , 
ip mroute.c 
图 14-18 del vifi: DVMRP DEL VIFüp4 
2. 删除 接口 


269-278 ”对 于 物理 接口 ， 释 放 本 地 多 播 组 表 ，SIOCADDMULTI 禁 止 接收 所 有 多 播 数据 报 ， 
bzero 对 viftable 的 入 口 清 零 。 
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3. 调整 接口 计数 
279-286 for 循环 从 以 前 活动 的 最 大 入口 开始 向 后 直到 第 一 个 入 口 为 止 ， 搜 索 出 第 一 个 活 
动 的 入 口 。 对 没有 使 用 的 入 口 ，v_1lc1l_adqdr( 一 个 ijn_addr 结 构 ) 的 成 员 s_addr 是 0。 相 应 
地 更 新 numvifs， 国 数 返 回 。 


14.6 IGMP( 续 ) 


第 13 章 侧重 于 IGMP 协 议 的 主机 部 分 ，mrouted 实 现 了 这 个 协议 的 路 由 器 部 分 。mrouted 
必须 为 每 个 物理 接口 记录 哪个 多 播 组 有 成 员 在 连 到 的 网 络 上 。mrouted 每 120 秒 多 播 一 个 
IGMP_HOST_MEMBERSHIP_QUERY 数 据 报 ， 并 把 IGMP_HOST_MEMBERSHIP ”REPORT 的 结 
果 汇 编 到 与 每 个 网 络 相关 的 成 员 关 系数 组 中 。 这 个 数组 不 是 我 们 在 第 13 章 讲 的 成 员 关 系 表 。 

mrouted 根 据 收集 到 的 信息 构造 多 播 路 由 选择 表 。 多 播 组 表 也 提供 信息 ， 用 来 抑制 向 没有 
目的 组 成 员 的 多 播 互 联网 区 进行 多 播 。 

只 为 物理 接口 维护 这 样 的 成 员 关 系数 组 。 对 其 他 多 播 路 由 器 来 说 ， 隧 道 是 点 到 点 接口 ， 
所 以 无 需 组 成 员 关 系 信息 。 

我 们 在 图 14-14 中 看 到 ，v_Lc1_grps 指 向 一 个 IP 多 播 组 数组 。mrouted 用 DVMRP_ 
ADD_LGRP 和 DVMRP_DEL_LGRP 命 令 维 护 这 个 表 。 两 个 命令 都 带 了 一 个 lgrpctl 结 构 
{图 14-19)。 


ip_mroute.h 
87 struct lgrplctl ( 










88 vifi t gc vifi; 
89 struct in_addr lgc. gaddr; 
90 ): . 
ip mroute.h 
图 14-19 1Lgrpct1 结 构 
进程 一 
内 核 


DVMRP ADD LGRP 选项 


Setsockopt 






rip ctloutput 






IGMP, HOST, MEMBERSHIP, REPORT 


数据 报 


ip mroute, cmd 





图 14-20 IGMP 报 告 处 理 
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87-90 
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lgc_vifi 和 lgc_gaddr 标 识 {接口 ， 组 } 对 。 接 口 下 标 (无 符号 短 整 数 1gc_vifi) 


标识 一 个 虚拟 接口 ， 而 不 是 物理 接口 。 
当 收 到 一 个 IGMP_HOST_MEMBERSHIP | REPORTH, 调用 图 14-20 所 示 的 国 数 。 


14.6.1 


add lgrpifi 


mrouted 检 查 到 达 IGMP 报 告 的 源 地 址 ， 确 定 是 哪个 子 网 ， 从 而 确定 报告 是 哪个 接口 接 





291 static int 


ip_mroute.c 


292 add lgrp(gcp) 
293 struct lgrplctl *gcp; 


294 ( 
295 
296 


297 
298 


299 
300 
301 


302 
303 
304 
305 
306 


307 
308 
309 
310 
311 
312 
313 
314 
315 
316 
317 
318 
319 
320 


321 
322 
323 
324 


325 
326 
327 


328 
329 


330 
331 
332 } 


struct vif *vifp; 
int S; 


if (gcp-»lgc vifi >= numvifs) 
return (EINVAL); 


vifp = viftable + gcp-»lgc vifi; 
if (vifp-»v lcl addr.s addr -- 0 || (vifp-»v flags & VIFF TUNNEL)) 
return (EADDRNOTAVAIL); 


/* If not enough space in existing list, allocate a larger one */ 
s = Splnet(); 
if (vifp-»v.lcl grps n + 1 >= vifp-»v lcl grps max) í 

int num; 

struct in_addr *ip; 


num = vifp->v_lcl_grps_max; 
if (num <= 0) 

num = 32; /* initial number */ 
else 

num += num; /* double last number */ 
ip = (struct in addr *) malloc(num * sizeof(*ip), 

M MRTABLE, M NOWAIT); 

if (ip -- NULL) ( 

spixís):; 

return (ENOBUFS); 
} 
bzero((caddr t) ip, num * sizeof(*ip)); /* XXX paranoid */ 
bcopy((caddr t) vifp-»v lcl grps, (cadàr t) ip, 

vifp-»v lcl grps n * sizeof(*ip)): 


vifp-»v lcl grps max = num; 

if (vifp-»v 1lcl, grps) 
free(vifp-»v lcl grps, M MRTABLE); 

vifp-»v lcl grps - ip: 


splxí(s); 


) 
vifp-»v lcl grps[vifp-»v lcl grps n-«*] = gcp-»1gc gaddr; 


if (gcp-»1gc gaddr.s addr == vifp-»v. cached group) 
vifp--v cached result = 1; 


splx (s); 
return (0); 


ip_mroute.e 


图 14-21 add lgrpmHA: DVMRP_ADD._GLRP 命 令 
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收 的 。 根 据 这 个 信息 ，mroutedG 为 该 接口 设置 DVMRP_ADD_LGRP 命 令 ， 更 新 内 核 中 的 成 员 
关系 表 。 这 个 信息 也 被 送 到 多 播 路 由 选择 算法 ， 更 新 路 由 选择 表 。 图 14-21 显 示 了 add_lgrp 
EES 

1. 验证 增加 请 求 
291-301 如果 该 请 求 标识 了 一 个 无 效 接口 ， 就 返回 EINVAL。 如 果 没 有 使 用 该 接口 或 它 是 
一 个 隧道 ， 则 返回 EADDRNOTAVAIL。 

2. 如 果 需 要 ， 扩 展 组 数组 
302-326 ”如果 新 组 无 法 放 在 当前 的 组 数组 中 ， 就 分 配 一 个 新 的 数组 。 第 一 次 为 接口 调用 
adq_l1grp 国 数 时 ， 分 配 一 个 能 装 32 个 组 的 数组 。 

每 次 数组 被 填 满 后 ，add_1lgrp 就 分 配 一 个 两 倍 于 前 面 数组 大 小 的 新 数组 。Ma1l1loc 人 负责 
分 配 ，bzero 人 负责 清 零 ，bcopy 把 旧 数 组 中 的 内 容 复 制 到 新 数组 中 。 更 新 最 大 入 口 数 
VvV_1lcl_grps_max， 释 放 旧 数组 (如 果 有 的 话 )， 把 新 数组 和 v_1lc1l_grps 连 接 到 vif 入 口 。 


“偏执 狂 (paranoid)” 评 论 指 出 ， 无 法 保证 malloc 分 配 的 内 存 全 部 是 0。 


3. 增加 新 的 组 
327-332 新 组 被 复制 到 下 一 个 可 用 的 人 口 ， 如 果 高 速 缓存 中 已 经 存放 了 新 组 ， 就 把 高 速 缓 
存 标记 为 有 效 。 

查找 高 速 缓存 中 包含 一 个 地 址 v_cached_grouPp， 以 及 一 个 高 速 缓存 的 查找 结果 
v_cacheda_result。grplst_member 函 数 在 搜索 成 员 关 系数 组 之 前 ， 总 是 先 查 一 下 这 个 
高 速 缓存 。 如 果 给 定 的 组 与 v_cached_group 匹 配 ， 就 返回 高 速 缓存 的 查找 结果 ; 否则 ， 搜 
索 成 员 关 系数 组 。 


14.6.2 del lgrpifi 


如 果 在 270 秒 内 ， 没 有 收 到 该 组 任何 成 员 关 系 的 报告 ， 则 每 个 接口 的 组 信息 超时 。 
mrouted 维 护 适 当 的 定时 器 ， 并 当 信 息 超 时 后 ， 发 布 DVMRP_DEL_LGRP 命 令 。 图 14-22 显 示 
了 del_lgrp。 

1. 验证 接口 下 标 
337-347 如果 请 求 标识 无 效 接口 ， 叫 返回 EINVAL。 如 果 该 接口 没有 使 用 或 是 一 个 隧道 ， 
则 返回 EADDRNOTAVAIL。 

2. 更 新 查找 高 速 缓存 
348-350 如 果 要 删除 的 组 在 高 速 缓存 里 ， 就 把 查找 结果 设 成 0( 假 )。 

3. 删除 组 
351-364 如果 在 成 员 关 系 表 中 没有 找到 该 组 ， 则 在 error 中 发 布 EADDRNOTAVAIL。for 
循环 搜索 与 该 接口 相关 的 成 员 关 系数 组 。 如 果 same( 是 一 个 宏 ， 用 bcmp 比 较 两 个 地 址 ) 为 真 ， 
则 清除 error， 把 组 计数 器 加 1。bcopy 移 动 后 续 的 数组 入 口 ， 删 除 该 组 ，de1_1lgrp 跳 出 该 
-循环 。 . 

如 果 循 环 结束 ， 没 有 找到 匹配 ， 则 返回 EADDRNOTAVAIL; 否则 返回 0。 
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337 static int ip -mroute.c 

338 del lgrp(gcp) 

339 struct lgrplctl *gcp; 

340 ( 

341 struct vif *vifp; 

342 int i, error, 3; 

343 if (gcp-»1gc vifi >= numvifs) 

344 return (EINVAL); 

345 vifp = viftable + gcp-»1gc. vifi; 

346 if (vifp-»v. lcl addr.s. addr == || (vifp-»v.flags & VIFF, TUNNEL)) 

347 return (EADDRNOTAVAIL); 

348 S = splnet(); 

349 if (gcp-»1gc gaddr.s addr =-= vifp-»v cached group) 

350 vifp-»v cached result = 0; 

351 error - EADDRNOTAVAIL; 

352 for (i = 0; i < vifp-»v lcl.grps n; ++i) 

353 if (same(&gcp-»1gc gaddr, &vifp--v lcl grps[(il)) 

354 error = 0; 

355 vifp-»v lcl grps n--; 

356 bcopy((caddr t) & vifp-»v lcl grps[i + 1], 

357 (caddr t) & vifp-»v lcl. grpsíi], 

358 (vifp-»v lcl grps n - i) * sizeof(struct in addr)); 

359 error - 0; 

360 break; 

361 ) 

362 Splxí(s); 

363 return (error); 

364 ) . 
ip mroute.c 


图 14-22 del l1grptRfÉ: DVMRP DEL LGRPÍfm4 


14.6.3 grplst member 


在 转发 多 播 时 ， 查 询 成 员 关 系数 组 ， 以 免 把 数据 报 发 到 没有 目的 组 成 员 的 网 络 上 。 图 14- 


23 显 示 的 grplst_member 了 晴 数 ， 搜 索 整 个 表 ， 寻 找 给 定 组 地 址 。 





368 static int 

369 grplst, member(vifp, gaddr) 
370 struct vif *vifp; 

371 struct in_addr gaddr; 


372 ( 

373 int i, S; 

374 u long addr; 

375 mrtstat.mrts grp  lookups-*; 

376 addr = gaddr.s addr; 

377 if (addr == vifp-»v cached group) 

378 return (vifp-»v. cached result); 

379 mrtstat.mrts grp misses-e-; 

380 for (i = 0; i < vifp-»v lcl grps n; ++i) 


图 14-23 grplst, membertR27K 


ip mroute.c 
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381 if (addr == vifp-»v lcl grps[i].s,addr) ( 

382 s = Splnet(); 

383 vifp-»v. cached group = addr; 

384 vifp-»v cached result - 1; 

385 Splix(s); 

386 return (1); 

387 } 

388 S = splnet(); 

389 vifp->v_cached group = addr; 

390 vifp->v_cached_result = 0; 

391 Splxís); 

392 return (0); 

393 } . 

ip mroute.c 

图 14-23 (£3) 


1. 检查 高 速 缓存 
368-379 如 果 请 求 的 组 在 高 速 缓存 中 ， 则 返回 高 速 缓存 的 结果 ， 不 搜索 成 员 关 系数 组 。 

2. 搜索 成 员 关 系数 组 
380-390 ”对 数组 进行 线性 搜索 ， 确 定 组 是 否 在 其 中 。 如 果 找 到 ， 就 更 新 高 速 缓 存 以 记录 匹 
配 的 值 ， 并 返回 1; 如 果 疫 有 找到 ， 就 更 新 高 速 缓存 记录 丢失 的 ， 并 返回 0。 


14.7 多 播 选 路 


正如 在 本 章 开 始 提 到 的 ， 我 们 不 给 出 mrouted 实 现 的 TRPB 算 法 ， 但 给 出 一 个 有 关 该 机 
制 的 综述 ， 擅 述 内 核 的 多 播 路 由 选择 表 和 多 播 路 由 选择 函数 。 图 14-24 显 示 了 一 个 我 们 用 于 解 
释 该 算法 的 示例 多 播 网 络 。 





图 14-24 多 播 网 络 示 例 


图 14-24 中 ， 方 框 代表 路 由 器 ， 椭 圆 代表 连接 到 路 由 器 的 多 播 网 络 。 例 如 ， 路 由 器 D 可 以 
在 网 络 D 和 网 络 C 上 多 播 。 路 由 器 C 可 以 向 网 络 C 多 播 ， 通 过 点 到 点 接口 向 路 由 器 A 和 B 多 播 ， 
并 可 以 通过 一 个 多 播 隧 道 向 路 由 器 E 多 播 。 

最 简单 的 路 由 选择 办 法 是 ， 从 互联 网 拓扑 中 选 出 一 个 子 网 ， 形 成 一 个 生成 树 。 如 采 每 个 
路 由 器 都 沿 着 生成 树 转发 多 播 ， 则 各 路 由 器 最 终 会 收 到 数据 报 。 图 14-25 显 示 了 示例 网 络 的 一 
个 生成 树 。 其 中 ， 网 络 A 上 的 主机 S 是 多 播 数据 报 的 源 。 


有 关 生 成 树 的 讨论 ， 参 见 [Tanenbaum 1989] 或 [Perlman 1992]。 
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图 14-25 网 络 A 的 生成 树 


这 个 生成 树 是 根据 从 各 网 络 回 到 网 络 A 上 的 源 站 的 最 短 逆向 路 径 (reverse path) 构 造 的。 图 
14-25 的 生成 树 中 ， 省 略 了 路 由 器 B 和 C 之 间 的 线路 。 源 站 和 路 由 器 A 之 间 的 第 头 ， 以 及 路 由 器 
B 和 C 之 间 的 第 头 ， 强 调 了 多 播 网 络 是 生成 树 的 一 部 分 。 

、 如 果 用 同一 生成 树 转 发 来 自 网 络 C 的 数据 报 ， 为 了 在 网 络 B 上 收 到 ， 数 据 报 经 过 的 转发 路 

径 将 大 于 需要 的 长 度 。RFC 1075 提 出 的 算法 为 每 个 潜在 的 源 站 计算 了 一 个 单独 的 生成 树 ， 以 
避免 这 种 情况 。 路 由 选择 表 为 每 条 路 由 记录 了 一 个 网 络 号 和 子 网 掩 码 ， 所 以 一 条 路 由 可 以 应 
用 到 源 子 网 内 的 任意 主机 。 

因为 构造 生成 树 是 为 了 给 源 站 的 数据 报 提供 最 短 逆向 路 径 ， 而 每 个 网 络 都 接收 所 有 多 播 
数据 报 ， 所 以 这 个 过 程 称 为 逆向 路 径 广播 (reverse path broadcast) 即 RPB。 

RPB 没 有 任何 多 播 组 成 员 信 息 ， 使 许多 数据 报 被 不 必要 地 转发 到 疫 有 目的 组 成 员 的 网 络 
上 。 如 果 ， 除 了 计算 生成 树 外 ， 该 路 由 选择 算法 还 能 记录 哪些 网 络 是 叶子 ， 注 意 到 每 个 网 络 
上 的 组 成 员 关系 ， 那 么 ， 连 到 叶子 网 络 的 路 由 器 就 可 以 避免 把 数据 报 转发 到 没有 目的 组 成 员 
的 网 络 上 去 。 这 称 为 截断 逆向 路 径 广 播 (TRPB)，2.0 版 的 mrouted 在 IGMP 帮 助 下 记录 叶子 网 
络 上 的 成 员 关 系 ， 从 而 实现 这 一 算法 。 

图 14-26 显 示 了 TRPB 算 法 的 应 用 。 多 播 来 自 网 络 C 上 的 源 站 ， 并 在 网 络 B 上 有 一 个 目的 组 
成 员 。 

我 们 用 图 14-26 说 明 Net/3 多 播 路 由 选择 表 中 使 用 的 名 词 。 在 这 个 例子 中 ， 有 阴影 的 网 络 和 





14-26 网 络 C 的 TRPB 路 由 选择 
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路 由 器 收 到 来 自 网 络 C 上 源 站 的 数据 报 。A 和 B 之 间 的 线路 不 属于 生成 树 ，C 与 D 之 间 设 有 连接 ， 
因为 C 和 DD 直接 收 到 源 站 发 送 的 多 播 。 

在 这 个 图 中 ， 网 络 A、B、D 和 BE 是 叶子 网 络 。 路 由 器 C 接 收 多 播 ， 并 通过 连 到 路 由 器 A、 
B 和 E 的 接口 将 其 转发 一 一 尽管 把 它 发 给 A 和 E 都 是 浪费 。 这 是 TRPB 算 法 的 缺点 。 

路 由 器 C 上 与 网 络 C 相 关 的 接口 叫做 父亲 ， 因 为 路 由 器 C 期 望 用 它 接 收 来 自 网 络 C 的 多 播 。 
从 路 由 器 C 到 路 由 器 A、B 和 E 的 接口 叫做 儿子 接口 。 对 路 由 器 A 来 说 ， 点 到 点 接口 是 来 自 C 的 
源 分 组 的 父亲 ， 到 网 络 A 的 接口 是 儿子 。 接 口 相 对 于 数据 报 的 源 站 ， 被 标识 为 父亲 和 儿子 。 只 
在 相关 的 儿子 接口 上 转发 多 播 数据 报 ， 不 在 父亲 接口 上 转发 多 播 。 

继续 我 们 的 例子 ， 因 为 网 络 A、D 和 E 是 叶子 网 络 ， 并 且 没 有 目的 组 成 员 ， 所 以 它们 没有 
阴影 。 在 路 由 器 处 截断 生成 树 ， 也 不 把 数据 报 转发 到 这 些 网 络 上 去 。 路 由 器 B 把 数据 报 转发 到 
网 络 B 上 ， 因 为 B 上 有 一 个 目的 组 成 员 。 为 实现 截断 算法 ， 接 收 数据 报 的 所 有 路 由 器 都 在 自己 
的 viftable 中 查询 与 每 个 虚拟 接口 相关 的 组 表 。 

对 该 多 播 路 由 选择 算法 的 最 后 一 个 改进 叫做 逆 疝 路 径 多 播 (reverse path multicasting, 
RPM)。RPM 的 目的 是 修剪 (prune) 各 生成 树 ， 避 免 在 设 有 目的 组 成 员 的 分 支 上 发 送 数据 报 。 
在 图 14-26 中 ，RPM 可 以 避免 路 由 器 C 向 A 和 BE 发 送 数据 报 ， 因 为 在 这 两 个 分 支 上 没有 目的 多 播 
组 的 成 员 。3.3 版 的 mrouted 实 现 了 RPM。 

图 14-27 是 我 们 的 示例 网 络 ， 但 这 一 次 ， 只 有 那些 RPM 算法 选 路 数据 报 能 到 达 的 路 由 器 和 
网 络 才 有 阴影 。 





图 14-27 网 络 C 的 RMP 路 由 选择 


为 了 计算 生成 树 对 应 的 路 由 表 ， 多 播 路 由 器 和 邻近 的 多 播 路 由 器 通信 ， 发 现 多 播 互 联网 
拓扑 和 多 播 组 成 员 的 位 置 。 在 Net/3 中 ， 用 DVMRP 进 行 这 种 通信 。DYVMRP 作 为 IGMP 数 据 报 
传送 ， 发 给 224.0.0.4 组 ， 该 组 是 给 DVMRP 通 信保 留 的 (图 12-1)。 

在 图 12-39 中 ， 我 们 看 到 ， 多 播 路 由 器 总 是 接受 到 达 的 IGMP 分 组 ， 把 它们 传 给 
igmp_input 和 rip_input， 然 后 mrouted 在 一 个 原始 IGMP 插 口上 读 它 们 。mrouted 把 
DVMRP 报 文 发 送 到 同一 原始 IGMP 揪 口上 的 其 他 多 播 路 由 器 。 

实现 这 些 算 法 需要 的 有 关 RPB 、TRPB 、RPM 以 及 DVMRP 报 文 的 其 他 细节 参见 [Deering 
和 Cheriton 1990] 和 mrouted 的 源 代 码 。 

Internet 上 还 使 用 了 其 他 多 播 路 由 选择 协议 。Proteon 路 由 器 实现 了 RFC 1584 [Moy 1994] 
提出 的 MOSPF 协 议 。Cisco 从 操作 软件 的 10.2 版 开始 实现 了 PIM(Protocol Independent 
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Multicasting), [Deering et al1994] 描 述 T PIM. 


14.7.1 多 播 选 路 表 


现在 我 们 描述 Net/3 中 实现 的 多 播 路 由 选择 。 内 核 的 多 播 路 由 选择 表 是 作为 一 个 有 64 个 入 
日 的 散 列表 实 现 的 (MRTHASHIZzZ)。 该 表 保 存在 全 局 数组 mrttable 中 ， 每 个 入 口 指 向 一 个 
mrt 结 构 的 链表 ， 如 图 14-28 所 示 。 


ip mroute.h 
120 struct mrt ( 
121 struct in_addr mrt origin;  /* subnet origin of multicasts */ 
122 Struct in addr mrt originmask;  /* subnet mask for origin */ 
123 vifi t mrt,parent; /* incoming vif */ 
124 vifbitmap t mrt children; /* outgoing children vifs */ 
125 vifbitmap t mrt leaves; /* subset of outgoing children vifs */ 
126 struct mrt *mrt next; /* forward link */ 
127 ); . 
ip mroute.h 


Kk14-28 mrt 结 构 


120-127 mrtc_origin 和 mrtc_originmask 标 识 表 中 的 一 个 人 人口 。mrtc_parent 是 
虚拟 接口 的 下 标 ， 该 虚拟 接口 上 预期 有 来 自 起 点 的 所 有 多 播 数据 报 。mrtc_children 是 一 
个 位 图 ， 标 识 外 出 的 接口 。mrtc_leaves 也 是 一 个 位 图 ， 里 面 标识 多 播 路 由 选择 树 中 也 是 
叶子 的 外 出 接口 。 当 多 条 路 由 散 列 到 同一 个 数组 入 口 时 ， 最 后 一 个 成 员 mrt_next 实 现 该 人 
口 的 一 个 链表 。 

图 14-29 是 多 播 选 路 表 的 整体 结构 。 各 mrt 结 构 都 放 在 一 个 散 列 链 上 ， 该 散 列 链 与 
nethash( 图 14-31) 函 数 返 回 的 值 对 应 。 


mrttable: mrtí) mrtí) mrtí) 


mrt origin 
mrt originmask 























mrt next 





| mrt next 了 
图 14-29 多 播 选 路 表 


内 核 维护 的 多 播 选 路 表 是 mroutedq 维 护 的 多 播 选 路 表 的 一 个 子 集 ， 其 中 的 信息 足够 内 核 
支持 多 播 转 发 。 发 送 内 核 表 更 新 和 DVMRP_ADD_MRT 命 令 ， 其 中 包含 图 14-30 显 示 的 mrtct1l 
结构 。 

95-101 mrtcti 结 构 的 5 个 成 员 携 带 了 我 们 谈 到 和 的 mrouted 和 内 核 之 间 的 信息 (图 14-28)。 
多 播 选 路 表 的 键 值 是 多 播 数 据 报 的 源 IP 地 址 。nethash( 图 14-31) 实 现 该 用 于 该 表 的 散 列 
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算法 。 它 接受 源 卫 地 址 ， 并 返回 0~63 之 间 的 一 个 值 (MRTHASHSIZ -1). 





ip mroute.h 
95 struct mrtctl ( 
96 Struct in addr mrtc origin; /* subnet origin of multicasts */ 
97 struct in_addr mrtc, originmask; /* subnet mask for origin */ 
98 vifi t mrtc parent; /* incoming vif */ 
99 vifbitmap t mrtc,.children;  /* outgoing children vifs */ 
100 vifbitmap t mrtc leaves; /* subset of outgoing children vifs */ 
101 ); 
ip mroute.h 
14-30 mrtct1 结 构 
- ip_mroute.c 
398 static u_long 
399 nethash(in) 
400 struct in addr in; 
401 ( 
402 u long n; 
403 n = in netof(in); 
404 while ((n & Oxff) == 0) 
405 n >>= 8; 
406 return (MRTHASHMOD (n)); 
407 ) . 
ip mroute.c 


图 14-31 nethash 结 构 


398-407 in_netof 返 回 in， 主 机 部 分 设置 为 全 0， 在 n 中 仅 留 下 发 送 主机 的 A、B 和 C 类 网 
络 。 右 移 结果 ， 直 到 低 8 位 非 零 为 止 。MRTHASHMOD 是 


#define MRTHASHMOD(h) ((h) & (MRTHASHSIZ - 1)) 
把 低 8 位 与 63 进 行 逻辑 与 运算 ， 留 下 低 6 位 ， 这 是 0~63 之 间 的 一 个 整数 。 

用 两 个 函数 调用 (nethash 和 in_netof) 计 算 散 列 值 ， 作 为 散 列 32 bit 地 址 值 太 
过 昂贵 了 。 


14.7.2 del mrt 


mrouted 守 护 程序 通过 DVMRP_ADD_MRT 和 DVMRP_DEL_MRT 命 令 在 内 核 的 多 播 选 路 表 
中 增加 或 删除 表 项 。 图 14-32 显 示 了 del_mrt 函 数 。 


ip_mroute.c 
451 static int 
452 del_mrt (origin) 
453 struct in addr *origin; 
454 { 
455 struct mrt *rt, *prev_rt; 
456 u long hash = nethash(*origin); 
457 int S; 
458 for (prev rt = rt = mrttable[hash]; rt; prev rt = rt, rt = rt-»mrt next) 
459 if (origin-»s addr == rt-»mrt origin.s addr) 
460 break; 
461 if (!rt) 
462 return (ESRCH); 
463 S - splnet(); 


图 14-32 del mrtt&RXEE: DVMRP DEL MRTíg4 
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464 if (rt == cached mrt) 
465 cached mrt - NULL; 
466 if (prev_rt == rt) 
467 mrttable[hash] = rt-»mrt next; 
468 else 
469 prev rt-»mrt next = rt->mrt next; 
470 free(rt, M MRTABLE); 
471 Splx(s); 
472 return (0); 
473 } 
ip mroute.c 
图 14-32 (8) 
1. 找到 路 由 入 口 


451-462 ”for 循环 从 hash 标 识 的 入 口 开始 (在 nethash 中 定义 时 初始 化 )。 如 果 没 有 找到 和 
口 ， 则 返回 ESRCH。 

2. 删除 路 由 入 口 
463-473 如 果 该 入 口 在 高 速 缓存 中 ， 则 高 速 缓 存 也 无 效 了 。 从 散 列 链 上 把 该 入 口 断 开 ， 并 
且 释 放 。 当 匹配 入 口 在 表 的 最 前 面 时 ， 需 要 if 语 句 处 理 这 一 特殊 情况 。 


14.7.3 ”add_mrt 函 数 


add_mr t 函数 如 图 14-33 所 示 。 





一 一 ip mroute.c 
411 static int 


412 add mrt (mrtcp) 
413 struct mrtctl *mrtcp; 


414 ( 

415 struct mrt *rt; 

416 u long hash; 

417 int s; 

418 if (rt = mrtfind(mrtcp-»mrtc origin)) { 

419 /* Just update the route */ 

420 s = Ssplnet(); 

421 rt-»mrt, parent = mrtcp-»mrtc, parent; 

422 VIFM COPY (mrtcp-»mrtc children, rt-»mrt children); 
423 ' VIFM COPY (mrtcp-»mrtc, leaves, rt-»mrt leaves); 
424 Splx(s); ` 

425 return (0); 

426 } 

427 s = splnet(); 

428 rt = (struct mrt *) malloc(sizeof(*rt), M MRTABLE, M_NOWAIT); 
429 if (rt -- NULL) ( 

430 splx(s); 

431 return (ENOBUFS); 

432 ) 

433 /* 

434 * insert new entry at head of hash chain 

435 */ 

436 rt-»mrt origin - mrtcp-»mrtc origin; 

437 rt-»mrt, originmask - mrtcp-»mrtc originmask; 

438 rt-»mrt, parent - mrtcp-»mrtc parent; 


图 14-33 add mrtiffü: 处 理 DVMRP_ADD_MRT 命 令 
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439 VIFM COPY (mrtcp-»mrtc, children, rt-»mrt children); 
440 VIFM COPY(mrtcp-»mrtc, leaves, rt-»mrt, leaves); 
441 /* link into table */ 
442 hash = nethash(mrtcp-»mrtc origin); 
443 rt-»mrt, next = mrttable[hash]; 
444 mrttable[hash] = rt; 
445 splxí(s); 
446 return (0); 
447 ) ] 
ip mroute.c 
图 14-33 (£X) 
1. 更 新 存在 的 路 由 


411-427 如 果 请 求 的 路 由 已 经 在 路 由 表 中 ， 则 把 新 的 信息 复制 到 该 路 由 中 ，add_mrt 返 回 。 
2. 分 配 新 路 由 

428-447 在 新 分 配 的 mbuf 中 ， 根 据 增加 请 求 传递 的 mrtct1 结 构 ， 构 造 一 个 nrt 结 构 。 从 

mrtc_origin 计 算出 散 列 下 标 ， 并 把 新 路 由 插入 散 列 链 的 第 一 个 入 口 。 


14.7.4 mrtfind ý 


mrtfind 函 数 负责 搜索 多 播 选 路 表 。 如 图 14-34 所 示 。 把 数据 报 的 源 站 地 址 传 给 mrtfind， 
mrtfind 返 回 一 个 指向 匹配 mrt 结 构 的 指针 ; 如 果 没 有 匹配 ， 则 返回 一 个 空 指针 。 

1. 检查 路 由 查询 高 速 缓存 
477-488 ”把 给 定 的 源 IP 地 址 (orgin) 与 高 速 缓存 中 的 原始 掩 码 做 逻辑 与 运算 。 如 果 结 果 与 
cached_origin 匹 配 ， 则 返回 高 速 缓存 的 入 口 。 


ip mroute.c 





477 static struct mrt * 
478 mrtfind(origin) 
479 struct in, addr origin; 


480 ( 

481 struct mrt *rt; 

482 u, int hash; 

483 int S; 

484 mrtstat.mrts mrt lookups-«-; 

485 if (cached mrt !- NULL && 

486 (origin.s, addr & cached originmask) == cached origin) 
487 return (cached mrt); 

488 mrtstat.mrts mrt misses-4*; 

489 hash - nethash(origin); 

490 for (rt = mrttable[hash]; rt; rt = rt-»mrt next) 

491 if ((origin.s addr & rt-»mrt originmask.s addr) -- 
492 rt-»mrt, origin.s addr) ( 

493 S = splnet(); 

494 cached mrt - rt; 

495 cached origin - rt-»mrt origin.s addr; 

496 cached, originmask = rt-»mrt originmask.s,addr; 
497 splx (s); 

498 return (rt); 

499 } 

500 return (NULL); 

501 } 


Tip mroute.c 
图 14-34 mrtfind 国 数 
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2. 检查 散 列 表 
489-501 nethash 返 回 该 路 由 入 口 的 散 列 下 标 。for 循 环 搜索 散 列 链 找到 匹配 的 路 由 。 当 
找到 一 个 匹配 时 ， 更 新 高 速 缓存 ， 返 回 一 个 指向 该 路 由 的 指针 。 如 果 设 有 找到 匹配 ， 则 返回 
一 个 空 指针 。 


14.8 ”多 播 转发 ; ip_mforward 函 数 


内 核实 现 了 整个 多 播 转 发 。 我 们 在 图 12-39 中 看 到 ， 当 ip_mroutezr 非 空 时 ， 也 就 是 
mrouted 在 运行 时 ，ipintr 把 到 达 数 据 报 传 给 ip_mforward。 

我 们 在 图 12-40 中 看 到 ，ip_output 可 以 把 本 地 主机 产生 的 多 播 数据 报 传 给 ip 
mforward， 由 ijp_mforwargd 为 这 些 数据 报 选 路 到 除 ip_output 选 定 的 接口 以 外 的 其 他 接 
口上 去 。 

与 单 播 转 发 不 同 ， 每 当 多 播 数据 报 被 转发 到 某 个 接口 上 时 ， 就 为 该 数据 报 产 生 一 个 备份 。 
例如 ， 如 果 本 地 主机 是 一 个 多 播 路 由 器 ， 并 且 连 接 到 三 个 不 同 的 网 络 ， 则 系统 产生 的 多 播 数 
据 报 被 分 别 复制 三 份 ， 在 三 个 接口 上 等 待 输出 。 另 外 ， 如 果 应 用 程序 设置 了 多 播 环 回 标志 位 ， 
或 者 任何 输出 的 接口 也 接收 它 自己 的 传送 ， 则 数据 报 也 将 被 复制 ， 等 待 输入 。 

图 14-35 显 示 了 一 个 到 达 某 个 物理 接口 的 多 播 数 据 报 。 
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mkg ` 隧道 以 太 网 
图 14-35 到 达 某 个 物理 接口 的 多 播 数 据 报 


在 图 14-3$ 中 ， 数 据 报到 达 的 接口 是 目的 多 播 组 的 一 个 成 员 ， 所 以 数据 报 被 传 给 运输 层 协 
议 等 待 输入 处 理 。 该 数据 报 也 被 传 给 ip_mforward， 在 这 里 它 被 复制 和 转发 到 一 个 物理 接 
口 和 一 个 隧道 上 ( 带 粗 线 的 箭头 )， 这 两 个 必须 都 不 和 接收 接口 相同 。 

图 14-36 显 示 了 一 个 到 达 某 隧道 的 多 播 数据 报 。 

在 图 14-36 中 ， 用 带 虚 线 的 箭头 表示 与 该 障 道 的 本 地 端 有 关 的 物理 接口 ， 数据 报 就 在 这 一 
接口 上 到 达 。 数 据 报 被 传 给 ijp_mforward， 我 们 将 在 图 14-37 看 到 ， 因 为 分 组 到 达 一 个 隧道 ， 
所 以 ijp_mforward 返 回 一 个 非 零 值 。 这 导致 lipintr 不 再 把 该 分 组 传 给 运输 层 协 议 。 

ip_mforward 从 分 组 中 取出 隧道 选项 ， 查 询 多 播 选 路 表 ， 并 且 ， 在 本 例 中 ， 还 把 分 组 转 
发 到 另 一 个 隧道 以 及 到 达 的 物理 接口 上 去 ， 用 带 细 线 的 箭头 表示 。 这 是 可 行 的 ， 因 为 多 播 选 
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路 表 是 根据 虚拟 接口 ， 而 不 是 物理 接口 。 

在 图 14-36 中 ， 我 们 假定 物理 接口 是 目的 多 播 组 的 成 员 ， 所 以 ip_output 把 该 数据 报 传 
给 ip_mioopback，ip._mloopback 把 它 送 到 队列 中 等 待 jpintr 的 处 理 ( 带 粗 线 的 第 头 )。 
然后 ， 分 组 又 被 传 给 ijp_mforward， 并 被 这 个 函数 丢弃 (练习 14.4)。 这 一 次 ， 
ip_mforward 返 回 0( 因 为 分 组 是 在 物理 接口 上 到 达 的 )， 所 以 ijpintr 接 受 该 数据 报 ， 并 进行 
输入 处 理 。 


isi RC 


Mg EEP 
公 达 时 ， 才 接收 的 分 组 


———— 


ERU 
(图 14-39) 
















在 隧道 上 到 达 的 分 组 现在 在 物 ， 
刺 接 [1 上 排队 等 待 输入 


人 到达 多 播 隧道 以 太 网 
图 14-36 到 达 某 个 多 播 隧道 的 多 播 数据 报 
我 们 分 := 部 分 说 明 多 播 转 发 程序 : 
* 隧道 输入 处 理 (图 14-37); 


“转发 条 件 合格 (图 14-39); 和 
“转发 到 出 去 的 接口 上 (图 14-40)。 





- ip mroute.c 
516 int 


517 ip.mforward(m, ifp) 
518 struct mbuf *m; 
519 struct ifnet *ifp; 


520 ( 

521 struct ip *ip = mtod(m, struct ip *); 

522 struct mrt *rt; 

523 struct vif *vifp; 

524 int vifi; 

525 u Char *ipoptions; 

526 u long tunnel, src; 

527 if (ip-»ip hl < (IP HDR LEN + TUNNEL. LEN) >> 2 11 

528 (ipoptions = (u char *) (ip + 1))[1] !- IPOPT LSRR) ( 
529 /* Packet arrived via a physical interface. */ 

530 tunnel src - 0; 

531 ) else ( 

532 /* 

533 * Packet arrived through a tunnel. 

534 * A tunneled packet has a single NOP option and a 


图 14-37 ip_mforward 函 数 : 到 达 隧 道 
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535 * two-element loose-source-and-record-route (LSRR) 

536 * option immediately following the fixed-size part of 

537 * the IP header. At this point in processing, the IP 

538 * header should contain the following IP addresses: 

539 * 

540 * original source - in the source address field 

541 * destination group - in the destination address field 

542 * remote tunnel end-point - in the first element of LSRR 

543 * one of this host's addrs - in the second element of LSRR 

544 * 

545 * NOTE: RFC-1075 would have the original source and 

546 * remote tunnel end-point addresses swapped. However, 

547 * that could caüse delivery of ICMP error messages to 

548 * innocent applications on intermediate routing 

549 * hosts! Therefore, we hereby change the spec. 

550 */ 

551 /* Verify that the tunnel options are well-formed.  */ 

552 if (ipoptions[0] != IPOPT NOP || 

553 ipoptions[2] !- 11 |I /* LSRR option length */ 

554 ipoptions[3] !- 12 |I /* LSRR address pointer */ 

555 (tunnel src = *(u long *) (&ipoptions[4])) == 0) ( 

556 mrtstat.mrts, bad tunnels-; 

557 return (1); 

558 } 

559 /* Delete the tunnel options from the packet. */ 

560 ovbcopy((caddr t) (ipoptions + TUNNEL LEN), (caddr t) ipoptions, 

561 (unsigned) (m-»m len - (IP. HDR LEN + TUNNEL LEN))); 

562 m-»m len -- TUNNEL, LEN; 

563 ip-»ip len -- TUNNEL LEN; 

564 ip-»ip hl -= TUNNEL LEN >> 2; 

565 ) ` 

ip_mroute.c 

图 14-37 (£3) 


516-526 ip_mforward 的 两 个 参数 是 : 一 个 指向 包含 该 数据 报 的 mbuf 链 的 指针 ; 另 一 个 
是 指向 接收 接口 i fnet 结 构 的 指针 。 

l. 到 达 物 理 接口 
527-530 ”为 了 区 分 在 同一 物理 接口 上 到 达 的 多 播 数据 报 是 否 经 过 隧道 ， 要 检查 IP 首 部 的 特 
征 LSRR 选 项 。 如 果 首 部 太 小 ， 无 法 包含 该 选项 ; 或 者 该 选项 不 是 以 一 个 后 面 跟着 一 个 LSRR 
选项 的 NOP 开 始 ， 就 假定 该 数据 报 是 在 一 个 物理 接口 上 到 达 的 ， 并 把 tunne1_src 设 为 0。 

2. 到 达 隧 道 
531-558 如 果 数 据 报 看 起 来 像 是 从 隧道 上 到 达 的 ， 就 检查 选项 ， 验 证 格式 是 否 正 确 。 如 果 选 
项 的 格式 不 符合 多 播 隧道 ， 则 ip_mforward 返 回 1， 指 示 应 该 把 该 数据 报 丢 弃 。 图 14-38 是 隘 
道 选 项 的 结构 。 

在 图 14-38 中 ， 我 们 假定 数据 报 里 没有 其 他 选项 ， 但 不 是 必须 这 样 的 。 任 何其 他 

IP 选 项 都 可 能 出 现在 LSRR 选 项 的 后 面 ， 因 为 联 道 开始 篇 的 多 播 路 由 器 总 是 把 LSRR 

选项 插 在 所 有 其 他 选项 之 前 。 

3. 删除 隧道 选项 
559-565 ”如果 选 项 正确 ， 就 把 后 面 的 选项 和 数据 向 前 移动 ， 调 整 mbuf 首 部 的 m_1len 和 IP 首 
部 的 jp_len 和 ip_n1 的 值 ， 然 后 删除 隧道 选项 (图 14-38)。 
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20:4 1077-45 
图 14-38 多 播 隧 道 选项 

ip_mforward 经 常 把 tunnel_source 作 为 返回 值 。 当 数据 报 从 隧道 上 到 达 时 ， 这 个 值 
只 能 是 非 零 的 。 当 ip_mforward 返 回 非 零 值 时 ， 它 的 调用 方 就 丢弃 该 数据 报 。 对 :ipintzr 来 
说 ， 这 意味 着 在 隧道 上 到 达 的 一 个 数据 报 被 传 给 ipP_mforward， 并 且 被 ipintr 丢 弃 。 转 发 
程序 取出 隧道 信息 ， 复 制 数据 报 ， 用 ip_output 将 其 发 送出 去 ;如果 接 口 是 目 的 多 播 组 的 成 
员 ， 则 ijp_output 调 用 ip_mloopback。 

ip_mforward 的 下 一 部 分 显示 在 图 14-39 中 ， 在 这 部 分 程序 中 ， 如 果 数 据 报 不 符合 转发 
的 条 件 ， 就 丢弃 它 。 








ip_mroute.c 

566 /* 

567 * Don't forward a packet with time-to-live of zero or one, 

568 * or a packet destined to a local-only group. 

569 */ 

570 if (ip-»ip.ttl <= 1 |l 

571 ntohl(ip-»ip dst.s. addr) <= INADDR. MAX LOCAL GROUP) 

572 return ((int) tunnel src); 

573 /* 

574 * Don't forward if we don't have a route for the packet's origin. 

575 */ ` 

576 if (!(rt = mrtfind(ip-»ip src))) ( 

571 mrtstat.mrts no routers; 

578 return ((int) tunnel, src); 

579 } 

580 /* 

581 * Don't forward if it didn't arrive from the parent vif for its origin. 

582 */ 

583 vifi - rt-»mrt parent; 

584 if (tunnel src -- 0) ( 

585 if ((viftable[vifi].v flags & VIFF, TUNNEL) |! 

586 viftable[vifi].v ifp !- ifp) 

587 return ((int) tunnel, src): 

588 ) else ( 

589 if (!(viftable[vifi].v flags & VIFF TUNNEL) || 

590 viftable[vifi].v rmt addr.s addr !- tunnel src) 

591 return ((int) tunnel src); 

592 } `. 
ip_mroute.c 


图 14-39 ip mforwardgfi: 转发 可 行 性 检查 
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4. 超时 的 TIL 或 本 地 多 播 
566-572 如 果 ip_tt1 是 0 或 1， 那 么 数据 报 已 经 到 了 生存 期 的 最 后 ， 不 再 转发 它 。 如 果 目 
的 组 小 于 或 等 于 INADDR_MAX_LOCAL_GROUP( 几 个 224.0.0.x 组 ， 图 12-1)， 则 不 允许 数据 报 
离开 本 地 网 络 ， 也 不 转发 它 。 在 两 种 情况 下 ， 都 把 Eunne1l_src 返 回 给 调用 方 。 

3.3 版 的 mrouted 支 持 对 某 些 目的 多 播 组 的 管理 辖 域 。 可 把 接口 配置 成 丢弃 所 有 时 

址 到 这 些 组 的 数据 报 ， 与 224.0.0.x 组 的 自动 辖 域 类 似 。 

5. 没有 路 由 可 用 
573-579 如 果 mrtfingd 无 法 根据 数据 报 中 的 源 地 址 找到 一 条 路 由 ， 则 函数 返回 。 没有 路 由 ， 
多 播 路 由 器 无 法 确定 把 数据 报 转发 到 哪个 接口 上 去 。 这 种 情况 可 能 发 生 在 ， 比 如 ， 多 播 数据 
报 在 mrouted 更 新 多 播 选 路 表 之 前 到 达 。 

6. 在 没有 想到 的 接口 上 到 达 
580-592 如果 数据 报到 达 某 个 物理 接口 ， 但 系统 本 来 预想 它 应 该 到 达 某 个 隧道 或 其 他 物理 
HH, Wjip mforwardi&Inl; 如 果 数 据 报到 达 某 个 隧道 ， 但 系统 本 来 预想 它 应 该 在 某 个 物 
理 接口 或 其 他 隧道 上 到 达 ， 则 ip_mforwardq 也 返回 。 产 生 这 些 情况 的 原因 是 ， 当 组 成 员 关 
系 或 网 络 的 物理 拓扑 发 生变 化 后 ， 正 在 更 新 选 路 表 时 ， 数 据 报到 达 。 

ip_mforward 的 最 后 一 部 分 (图 14-40) 把 该 数据 报 在 多 播 路 由 人 口 所 指定 的 每 个 输出 接 
HERIK. 





ip_mroute.c 
593 /* 
594 * For each vif, decide if a copy of the packet should be forwarded. 
595 * Forward if: 
596 * - the ttl exceeds the vif's threshold AND 
597 * - the vif is a child in the origin's route AND 
598 * - ( the vif is not a leaf in the origin's route OR 
599 * the destination group has members on the vif ] 
600 * 
601 * (This might be speeded up with some sort of cache -- someday.) 
602 */ 
603 for (vifp = viftable, vifi = 0; vifi < numvifs; vifp««, vifi««) ( 
604 if (ip-»ip ttl > vifp-»v threshold && 
605 VIFM ISSET(vifi, rt-»-mrt children) && 
606 (!IVIFM ISSET(vifi, rt-»mrt leaves) |I| 
607 grplst member(vifp, ip-»ip dst))) ( 
608 if (vifp-»v,flags & VIFF. TUNNEL) 
609 tunnel send(m, vifp); 
610 else 
611 phyint, send(m, vifp); 
612 ) 
613 ) 
614 return ((int) tunnel,sro); 
615 ) . 
ip mroute.c 





图 14-40 ip_mforward 国 数 : 转发 


593-615 ”对 viftable 中 的 每 个 接口 ， 如 果 以 下 条 件 满足 ， 则 在 该 接口 上 发 送 数据 报 : 
。 数 据 报 的 TTL 大 于 接口 的 多 播 病 值 ; 
。 接 口 是 该 路 由 的 子 接口 ; 以 及 
。 接 口 没 有 和 某 个 叶子 网 络 相连 。 


如 果 沪 接口 是 -- 个 叶子 ， 
grplst_member 返 回 一 个 非 零 值 )， 才 输出 该 数据 报 。 


tunnel_send 在 隧道 接口 上 转发 该 数据 报 ; 用 phyint_send 在 物理 接口 上 转发 。 


那么 只 有 当 网 络 


14.8.1 phyint _send 函 数 
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上 有 日 的 多 播 组 成 员 时 (也 就 是 说 ， 


为 在 物理 接口 上 发 送 多 播 数据 报 ，phyint_send( 图 14-41) 在 己 传 给 ijp_output 的 





ip_moptions 结 构 中 ， 明 确 指 定 了 输出 接口 。 
: - ip_mroute.c 
616 static void 
617 phyint,send(m, vifp) 
618 struct mbuf *m; 
619 struct vif *vifp; 
620 ( 
621 struct ip *ip - mtod(m, struct ip *); 
622 Struct mbuf *mb copy; 
623 struct ip. moptions *imo; 
624 int error; 
625 struct ip moptions simo; 
626 mb copy - m copy(m, 0, M COPYALL); 
627 if (mb copy -- NULL) 
628 return; 
629 imo - &simo; 
630 imo-»imo multicast ifp = vifp-»v ifp; 
631 imo-»imo multicast ttl = ip-»ip ttl - 1; 
632 imo-»imo multicast loop - 1; 
633 error - ip output(mb copy, NULL, NULL, IP FORWARDING, imo); 
634 } . 
ip mroute.c 


f£ 14-41 


该 数据 报 。 递 减 TTL， 人 区 许多 播 环 回 


数据 报 被 传 给 ip_output。 


ip. output Brix Hip. mforward, 
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phyint, sendgR A 


616-634 m_copy 复 制 输出 的 数据 报 。ip_moptions 


结构 设置 为 强制 在 选 定 的 接口 上 传送 


IP_FORWRARDING 标 志 位 避免 产生 无 限 回 路 ， 使 












mbuf 首部 


20 字 5 
图 14-42 
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14.8. tunnel sendiEAX 


为 了 在 隧道 上 发 送 数 据 报 ，tunnel_send( 图 14-43) 必 须 构 造 合适 的 隧道 选项 ， 并 将 其 
揪 到 输出 数据 报 的 首部 。 图 14-42 显 示 了 tunne1l_.send 如 何 为 隧道 准备 分 组 。 


635 static void ip-mroute.c 
636 tunnel send(m, vifp) 

637 struct mbuf *m; 

638 struct vif *vifp; 

639 ( 

640 struct ip *ip - mtod(m, struct ip *); 

641 struct mbuf *mb copy, *mb opts; 

642 struct ip *ip. copy; 

643 int error; 

544 u_char *cp; 

645 /* 

646 * Make sure that adding the tunnel options won't exceed the 
647 * maximum allowed number of option bytes. 

648 */ 

649 if (ip-»ip hl » (60 - TUNNEL LEN) »» 2) ( 

650 mrtstat.mrts cant tunnels; 

651 return; 

652 H 

653 /* 

654 * Get a private copy of the IP header so that changes to some 
655 * of the IP fields don't damage the original header, which is 
656 * examined later in ip input.c. 

657 */ 

658 mb copy = m copy (m, IP HDR, LEN, M COPYALL); 

659 if (mb copy == NULL) 

660 return; 

661 MGETHDR(mb opts, M DONTWAIT, MT, HEADER); 

662 if (mb opts == NULL) ( 

663 m freemí(mb copy): 

664 return; 

665 H 

656 /* 

667 * Make mb opts be the new head of the packet chain. 

668 * Any options of the packet were left in the old packet chain head 
669 *,/ 

670 mb opts-»m next = inb copy; 

671 mb opts-»m len = IP HDR,LEN + TUNNEL, LEN; 

672 mb opts-»m data += MSIZE - mb opts-»m len; . 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ip mroute.c 


图 14-43 tunnel sendgfi: 验证 和 分 配 新 首部 


|l. 隧道 选项 合适 吗 
635-652 ”如 果 IP 首 部 内 没有 隧道 选项 的 空间 ，tunnel_send 立 即 返 回 ， 不 再 在 隧道 上 转 
发 该 数据 报 。 可 能 在 其 他 接口 上 转发 。 

2. 复制 数据 报 ， 为 新 首部 和 隧道 选项 分 配 mbuf 
653-672 ”在 调用 m_copy 时 ， 复 制 的 开始 偏 移 是 20(IP_HDR_LEN)。 产 生 的 mbuf 链 中 包含 
了 数据 报 的 选项 和 数据 报 ， 但 没有 IP 首 部 。mb_opts 指 向 MGETHDR 分 配 的 一 个 新 的 数据 报 首 
部 ， 这 个 新 的 数据 报 首部 被 放 在 nb_copy 的 前 面 。 然 后 调整 mn_1en 和 m_data 的 值 ， 以 容纳 


IP 首 部 和 隧道 选项 。 
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tunnel_seng 的 第 二 部 分 ， 如 图 14-44 所 示 ， 修 改 输出 分 组 的 首部 ， 并 发 送 该 分 组 。 


- - ip_mroute.c 
673 ip copy = mtod(mb opts, struct ip *); 
674 /* 
675 * Copy the base ip header to the new head mbuf. 
676 */ 
671 *ip copy - *ip; 
678 ip copy-»ip ttl--; 
679 ip .copy-»ip. dst = vifp-»v rmt, addr; /* remote tunnel end-point */ 
680 /* 
681 * Adjust the ip header length to account for the tunnel options. 
682 */ 
683 ip copy-»ip hl += TUNNEL LEN >> 2; 
684 ip copy-»ip len += TUNNEL LEN; 
685 /* 
686 * Add the NOP and LSRR after the base ip header 
687 */ 
688 Cp - (u char *) (ip copy * 1); 
689 *cpe* = IPOPT NOP; 
690 *cp++ = IPOPT LSRR; 
691 *cp++ = 11; /* LSRR option length */ 
692 *cp++ = 5; /* LSSR pointer to second element */ 
693 *(u long *) cp = vifp->v_lcl_addr.s_addr; /* local tunnel end-point */ 
694 Cp += 4; 
695 *(u long *) cp = ip-»ip dst.s addr; /* destination group */ 
696 error = ip output (mb opts, NULL, NULL, IP FORWARDING, NULL); 
697 ) . 

ip mroute.c 


图 14-44 tunnel sendtAX&: 构造 首部 和 发 送 


3. 修改 IP 首 部 
673-679 ”从 原始 mbuf 链 中 把 原始 IP 首部 复制 到 新 分 配 的 mbuf 首 部 中 。 减 少 该 首部 的 TTL， 
把 目的 地 址 改 成 隧道 另 一 端的 接口 地 址 。 

4. 构造 隧道 选项 
680-664 调整 ip_h1 和 ip_len 的 值 以 容纳 隧道 选项 。 隧 道 选项 紧 跟 在 IP 首部 的 后 
个 NOP， 后 面 是 LSRR 码 ，LSRR 选 项 的 长 度 (11 字 节 )， UR. RRETA MALA E 
字 节 )。 源 路 由 包括 了 本 地 隧道 端点 和 后 面 的 目的 多 播 组 地 址 (图 14-13)。 

5. 发 送 经 过 隧道 处 理 的 数据 报 
665-697 现在 ， 这 个 数据 报 看 起 来 像 一 个 有 LSRR 选 项 的 单 播 数据 报 ， 因 为 它 的 目的 地 址 是 
隧道 另 一 端的 单 播 地 址 。ip_output 发 送 该 数据 报 。 当 数据 报到 达 隧 道 的 另 一 端 时 ， 隧 道 选 
项 被 剥离 ， 另 一 端 可 能 会 通过 其 他 隧道 将 数据 报 继续 转发 。 


14.9 清理 : ip mrouter donei£ Zi 


当 mrouted 结 束 时 ， 它 发 布 DVMRP_DONE 命 令 ，ip_mrouter_done 函 数 (图 14-45) 处 理 


这 个 命令 。 
161-186 这 个 函数 在 splnet 上 运行 ， 避免 与 多 播 转发 代码 的 任何 交互 。 对 每 个 物理 多 播 
接口 ， 释 放 本 地 组 表 ， 并 发 布 SIOCDELMULTI 命 令 ， 阻止 接收 多 播 数 据 报 (练习 14.3) 。 


bzero 清 零 整 个 vi ftable 数 组 ， 并 把 numvifs 设 置 成 0。 
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187-198 释放 多 播 选 路 表 中 的 所 有 活动 人 口 ，bzero 清 零 整个 表 ， 清 零 缓存 ， 置 位 


ip mrouter, 


多 播 选 路 表 中 的 每 个 入 口 都 可 能 是 入 口 链 表 的 第 一 个 。 这 段 代 码 只 释放 表 的 第 


一 个 入 口 。 引 起 内 存 泄露 。 


161 int ip mroute.c 

162 ip mrouter. done() 

163 ( 

164 vifi t vifi; 

165 int i; 

166 struct ifnet *ifp; 

167 int S; 

168 struct ifreq ifr; 

169 s = splnet(); 

170 /* 

171 * For each phyint in use, free its local group list and 

172 * disable promiscuous reception of all IP multicasts. 

173 */ 

174 for (vifi - 0; vifi « numvifs; vifi««) ( 

175 if (viftable[vifi].v lcl addr.s addr !- 0 && 

176 !(viftable[vifi].v flags & VIFF, TUNNEL)) ( 

177 if (viftable[vifil.v lcl grps) 

178 free(viftable[vifi].v lcl.grps, M MRTABLE); 

179 satosin(&ifr.ifr addr)-»sin family = AF. INET; 

180 satosin(&ifr.ifr addr)-»sin addr.s, addr = INADDR, ANY; 

181 ifp - viftable[vifi].v ifp; 

182 (*ifp-»if. ioctl) (ifp, SIOCDELMULTI, (caddr t) & ifr); 

183 ) 

184 ) 

185 bzero((caddr t) viftable, sizeof(viftable)); 

186 numvifs - 0; 

187 /* 

188 * Free any multicast route entries. 

189 */ 

190 for (i = 0; i < MRTHASHSIZ; i++) 

191 if (mrttable[il) 

192 free(mrttable[i], M MRTABLE); 

193 bzero((caddr t) mrttable, sizeof(mrttable)); 

194 cached mrt - NULL; 

195 ip mrouter - NULL; 

196 Splxí(s); 

197 return (0); 

198 ) . 

ip mroute.c 
14-45 ip_mrouter_done 图 数 : DVMRP_DONE 命 令 

14.10 小结 


本 章 我 们 描述 了 网 际 多 播 的 一 般 概念 和 支持 它 的 Net/3 内 核 中 心 专用 函数 。 我 们 没有 讨论 
mrouted 的 实现 ， 有 兴趣 的 读者 可 以 得 到 源 代码 。 
我 们 描述 了 虚拟 接口 表 ， 讨 论 了 物理 接口 和 隧道 之 间 的 区 别 ， 以 及 Net/3 中 用 于 实现 隧道 


的 LSRR 选 项 。 
我 们 说 明了 RPB、TRPB 和 RPM 算 法 ， 描 述 了 根据 TRPB 转 发 多 播 数据 报 的 内 核 表 ， 还 讨 


论 了 父 网 络 和 叶子 网 络 。 
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习题 
14.1 
14.2 
14.3 


14.4 


14.5 


在 图 14-25 中 ， 需 要 多 少 多 播 路 由 ? 
为 什么 splnet 和 sp1x 保 护 对 图 14-23 中 组 成 员 关 系 高 速 缓存 的 更 新 ? 
当 某 个 接口 用 IP_ADD_MEMBERSHIP 选 项 明确 加 入 一 个 多 播 组 后 ， 如 果 向 它 发 布 


”SIOCDELMULTI， 会 发 生 什么 ? 


当 某 个 上 隧道 上 到 达 一 个 数据 报 ， 并 被 ip_mforward 接 收 后 ， 可 能 会 在 转发 到 某 
个 物理 接口 时 ， 被 ip_output 环 回 。 为 什么 当 环 回 分 组 到 达 该 物理 接口 时 ， 
ip_mforward& EF EME? 

RAIHI ARR, a CAR. 


第 15 章 插口 m 


15.1 引言 


本 书 共有 三 章 介绍 Net/3 的 插口 层 代码 ， 本 章 是 第 一 章 。 揪 口 概念 最 早出 现 于 1983 年 的 
4.2BSD 版 本 中 ， 它 的 主要 目的 是 提供 一 个 统一 的 访问 网 络 和 进程 间 通 信 协 议 的 接口 。 这 里 讨 
论 的 Net/3 版 基于 4.3BSD Reno 版 ， 该 版 本 与 大 多 数 Unix 供 应 商 使 用 的 早期 的 4.2 版 有 些 细小 的 
差别 。 

如 第 1.7 节 所 介绍 的 ， 播 口 层 的 主要 功能 是 将 进程 发 送 的 与 协议 有 关 的 请 求 映射 到 产生 插 
口 时 指定 的 与 协议 有 关 的 实现 。 

为 了 允许 标准 的 Unix 1/O 系 统 调用 ， 如 read 和 wr ite， 也 能 读 写 网 络 连 接 ， 在 BSD 版 本 
中 将 文件 系统 和 网 络 功 能 集成 在 系统 调用 级 。 与 通过 一 个 描述 符 访问 一 个 打开 的 文件 一 样 ， 
进程 也 是 通过 一 个 描述 符 (一 个 小 整数 ) 来 访问 插口 上 的 网 络 连接 。 这 个 特点 使 得 标准 的 文件 系 
统 调用 ， 如 reaG 和 write， 以 及 与 网 络 有 关 的 系统 调用 ， 如 sendmsg 和 recvmsg， 都 能 通 
过 描述 符 来 处 理 插口 。 

我 们 的 重点 是 插口 及 相关 的 系统 调用 的 实现 而 不 是 讨论 如 何 使 用 播 口 层 来 实现 网 络 应 用 。 
关于 进程 级 的 插 日 接口 和 如 何 编写 网 络 应 用 的 详细 讨论 ， 请 参考 [Stevens ]990] 和 [Rago 1990]. 

图 15-1 说 明了 进程 中 的 插口 接口 与 内 核 中 的 协议 实现 之 间 的 层次 关系 。 


国 数 调 用 


插口 系统 调用 
进程 


内 核 












TCP. 
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splnet 处 理 


插口 包含 很 多 对 splnet 和 sp1x 的 成 对 调用 。 正 如 第 1.12 节 中 介绍 的 ， 这 些 调用 保护 访 
问 在 插口 层 和 协议 处 理 层 间 共 享 的 数据 结构 的 代码 。 如 果 不 使 用 splnet， 初 始 化 协议 处 理 和 
改变 共享 的 数据 结构 的 软件 中 断 将 使 得 插口 层 代码 恢复 执行 时 出 现 混 乱 。 

我 们 假定 读者 理解 了 这 些 调用 ， 因 而 在 以 后 讨论 中 一 般 不 再 特别 说 明 它们 。 
15.2 代码 介绍 


本 章 讨论 涉及 的 三 个 文件 在 图 1$-2 中 列 出 。 
kern/uipc syscalls.c 系统 调用 实现 
kern/uipc socket.c 


摘 口 层 函 数 
图 15-2 本 章 讨 论 涉及 的 源 文 件 








全 局 变量 
本 章 讨论 涉及 到 的 两 个 全 局 变量 如 图 15-3 所 示 。 





socketps | struct fileops | LO 系统 调用 的 socket 实 现 
sysent struct sysent[] | 系统 调用 入 口 数 组 


图 15-3 本 章 介 绍 的 全 局 变量 


15.3 socket 


插口 代表 一 条 通信 链 路 的 一 端 ， 存 储 或 指向 与 链 路 有 关 的 所 有 信息 。 这 些 信息 包括 : 使 
用 的 协议 、 协 议 的 状态 信息 (包括 源 和 目的 地 址 )、 到 达 的 连接 队列 、 数 据 缓存 和 可 选 标志 。 图 
15-5 中 给 出 了 插 日 和 与 插口 相关 的 缓存 的 定义 。 
41-42 so_type 由 产生 插口 的 进程 来 指定 ， 它 指明 插口 和 相关 协议 支持 的 通信 语义 。 
so_type 的 值 等 于 图 7-8 所 示 的 pr_type。 对 于 UDP，so_type 等 于 SOCK_DGRAM， 而 对 于 
TCP，so_type 则 等 于 SOCK_STREAM。 
43 so_options 是 一 组 改变 插口 行为 的 标志 。 图 15-4 列 出 了 这 些 标 志 。 

通过 getsockopt 和 setsockopt 系 统 调 用 进程 能 修改 除 SO_ACCEPTCONN 外 

所 有 的 插口 选项 。 当 在 插口 上 发 送 1isten 系 统 调 用 时 ，SO_ACCEPTCONN 被 内 核 设 

X. 
44 so_l1inger 等 于 当 关 闭 一 条 连接 时 插口 继续 发 送 数 据 的 时 间 间 隔 (单位 为 一 个 时 钟 滴 
2815.15). 
45 so_state 表 示 插 口 的 内 部 状态 和 一 些 其 他 的 特点 。 图 15-6 列 出 了 so_state 可 能 的 取 
值 。 
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SO ACCEPTCONN 插口 接受 进入 的 连接 
SO, BROADCAST 插口 能 够 发 送 广播 报 文 
SO_DEBUG 插口 记录 排 错 信息 

SO DONTROUTE 输出 操作 旁 路 选 路 表 


SO KEEPALIVE 插口 查询 空闲 的 连接 

SO OOBINLINE 插口 将 带 外 数据 同 正 常数 据 存 放 在 一 起 
SO_REUSEADDR 插口 能 重新 使 用 一 个 本 地 地 址 

SO_REUSEPORT 插口 能 重新 使 用 一 个 本 地 地 址 和 端口 

SO USELOOPBACK 仅 针对 选 路 域 播 口 ; 发送 进 程 收 到 它 自己 的 选 路 请 求 





图 15-4 so optionsiffÉ 


socketvar.h 
41 struct socket ( 
42 short so type; /* generic type, Figure 7.8 */ 
43 short so options; /* from socket call, Figure 15.5 */ 
44 short so, linger; /* time to linger while closing */ 
45 Short SO state; /* internal state flags, Figure 15.6 */ 
46 Caddr.t so. pcb; ` /* protocol control block */ 
47 struct protosw *so_proto; /* protocol handle */ 
48 /* 
49 * Variables for connection queueing. 
50 * Socket where accepts occur is so head in all subsidiary sockets. 
51 * If so head is 0, socket is not related to an accept. 
52 * For head socket so, qÜ queues partially completed connections, 
53 * while so q is a queue of connections ready to be accepted. 
54 * If a connection is aborted and it has so head set, then 
55 * it has to be pulled out of either so qO0 or so q. 
56 * We allow connections to queue up based on current queue lengths 
57 * and limit on number of queued connections for this socket. 
58 */ 
59 struct socket *so head; /* back pointer to accept socket */ 
60 struct socket *so q0; /* queue of partial connections */ 
61 struct socket *so q; /* queue of incoming connections */ 
62 short so. qülen; . /* partials on so q0 */ 
63 short So, qlen; /* number of connections on so q */ 
64 short So qlimit; /* max number queued connections */ 
65 short So, timeo; /* connection timeout */ 
66 u short so, error; /* error affecting connection */ 
67 pid t So pgid; /* pgid for signals */ 
68 u, long so oobmark; /* chars to oob mark */ 
69 /* 
70 * Variables for socket buffering. 
7l */ 
72 struct Sockbuf { 
73 u long sb_cc; /* actual chars in buffer */ 
74 u.long sb, hiwat; /* max actual char count */ 
75 u.long sb, mbcnt; /* chars of mbufs used */ 
76 u.long sb mbmax; /* max chars of mbufs to use */ 
77 long sb lowat; /* low water mark */ 
78 struct mbuf *sb mb; /* the mbuf chain */ 
79 struct selinfo sb sel; /* process selecting read/write */ 
80 short sb flags: /* Figure 16.5 */ 
81 short sb timeo; /* timeout for read/write */ 
82 ) so rcv, so snd; 
83 caddr t so tpcb; /* Wisc. protocol control block XXX */ 


图 15-5 struct socket4E X. 
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84 void (*so upcall) (struct socket * so, caddr t arg, int waitf); 
85 Ccaddr t so upcallarg; /* Arg for above */ 
86 ); 
socketvar.h 
图 15-5 ( 续 ) 











SS ASYNC 
SS NBIO 


SS CANTRCVMORE 
SS CANTSENDMORE 
SS ISCONFIRMING 
SS ISCONNECTED 
SS ISCONNECTING 
SS ISDISCONNECTING 
SS NOFDREF 

SS PRIV 
SS RCVATMARK 









插口 应 该 VO 事件 的 异步 通知 
插口 操作 不 能 阻塞 进程 
插口 不 能 再 从 对 方 接收 数据 

插口 不 能 再 发 送 数据 给 对 方 

插口 正在 协商 一 个 连接 请 求 

插口 被 连接 到 外 部 插口 

插口 正在 连接 一 个 外 部 插口 

播 几 正在 同 对 方 断 连 

插口 没有 同 任何 描述 符 相 连 

播 口 由 拥有 超级 用 户 权限 的 进程 所 产生 

在 最 近 的 带 外 数据 到 达 之 前 ， 插 口 已 处 理 完 所 有 收 到 的 数据 





































图 15-6 so_state 的 值 


从 图 15-6 的 第 二 列 中 可 以 看 出 ， 进 程 可 以 通过 fcnt1 和 ioct1l 系 统 调用 直接 修改 
ss_ASYNC 和 SS_NBIO。 对 于 其 他 的 标志 ， 进 程 只 能 在 系统 调用 的 执行 过 程 中 间接 修改 。 例 
如 ， 如 果 进 程 调 用 connect， 当 连接 被 建立 时 ，SS_ISCONNECTED 标 志 就 会 被 内 核 设置 。 


SS_NBIO 和 SS_ASYNC 标 志 


在 默认 情况 下 ， 进 程 在 发 出 1/O 请 求 后 会 等 待 资源 。 例 如 ， 对 一 个 插口 发 read 系 统 调用 ， 
如 果 当 前 没有 网 络 上 来 的 数据 ， 则 read 系 统 调用 就 会 被 阻塞 。 同 样 ， 当 一 个 进程 调用 write 
系统 调用 时 ， 如 果 内 核 中 没有 缓存 来 存储 发 送 的 数据 ， 则 内 核 将 阻塞 进程 。 如 果 设 置 了 
ss_NBIO， 在 对 插口 执行 WO 操作 且 请 求 的 资源 不 能 得 到 时 ， 内 核 并 不 阻塞 进程 ， 而 是 返回 
EWOULDBLOCK., 

如 果 设 置 了 ss_aAsYNC， 当 因为 下 列 情况 之 一 而 使 插口 状态 发 生变 化 时 ， 内 核发 送 
SIGIO 信 和 号 给 so_pgid 标 识 的 进程 或 进程 组 : 

。 连接 请 求 已 完成 ; 

。 断 连 请 求 已 被 启动 ; 

。 断 连 请 求 已 完成 ; 

。 连接 的 一 个 通道 已 被 关闭 ; 

。 播 中 上 有 数据 到 达 ; 

。 数 据 已 被 发 送 ( 即 ， 输 出 缓存 中 有 闲置 空间 ); 或 
| * UDP 或 TCP 插 口上 出 现 了 一 个 异步 差错 。 
46 so_pcb 指 向 协议 控制 块 ， 协 议 控制 块 包含 与 协议 有 关 的 状态 信息 和 插口 参数 。 每 一 种 协 
议 都 定义 了 自己 的 控制 块 结构 ， 所 以 so_pcb 被 定义 成 一 个 通用 的 指针 。 图 15-7 列 出 了 我 们 讨 
论 的 控制 块 结构 。 

so_pcb 从 来 不 直接 指向 tcpcb 结 构 ， 参 考 图 22-1。 
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BARN 





inpcb 










第 22.3 li 
第 24.5 节 
struct inpcb 第 22.3 节 


struct rawcb 5520.35 


图 15-7 协议 控制 块 


47 so_proto 指 向 进程 在 socket 系 统 调用 (第 7.4 节 ) 中 选择 的 协议 的 protosw 结 构 。 
48-64 设置 了 So_RAcCEPTCONN 标 志 的 插口 维护 两 个 连接 队列 。 还 没有 完全 建立 的 连接 (如 
TCP 的 三 次 担 手 还 没完 成 ) 被 放 在 队列 seo_s0 中 。 已 经 建立 的 连接 或 将 被 接受 的 连接 (例如 ， 
TCP 的 三 次 握手 已 完成 ) 被 放 入 队列 so_g 中 。 队 列 的 长 度 分 别 为 so_a01en 和 sc_qlen。 每 
一 个 被 排队 的 连接 由 它 自 己 的 播 口 来 表示 。 在 每 一 个 被 排队 的 播 口中，so_head 指 向 设置 了 
SO_ACCEPTCONN 的 源 插 日 。 

插 日 上 可 排队 的 连接 数 通过 so_qlimit 来 控制 ， 进 程 可 以 通过 1isten 系 统 调用 来 设置 
so_qlimit。 内 核 隐 含 设置 的 上 限 为 5 (SOMAXCONN， 图 15-24) 和 下 限 为 0。 图 15-29 中 显示 
的 有 点 上 涩 的 公式 使 用 so_aql imit 来 控制 排队 的 连接 数 。 

图 15-8 说 明了 有 三 个 连接 将 被 接受 、 一 个 连接 已 被 建立 的 情况 下 的 队列 内 容 。 

Socket() 





struct inpcb 












struct tcpcb 








ICMP、IGMP 和 原始 IP 



















socket () i 
“TCP SYNA, fr 


进入 此 队 剑 













当 TCP SYN 被 应 答 时 将 插口 socket {} 
移 人 此 队列 ，accept 将 插口 
以 此 队列 中 出 除 一 sa 一 





图 15-8 插口 连接 队列 
65 so_timeo 用 作 accept、connet 和 close 处 理 期 间 的 等 待 通道 (waif channel， 第 15.10 
4». 

66 so_error 保 存 差错 代码 ， 直 到 在 引用 该 插口 的 下 一 个 系统 调用 期 间 差 错 代码 能 送 给 i 


f- 

67 ”如 果 插 口 的 Ss_ASYNC 被 设置 ， 则 SIGIO 信 号 被 发 送 给 进程 (如 果 so_pgid 大 于 0) 或 进程 
组 (如 果 so_pgigd 小 于 0)。 可 以 通过 ioct1 的 SIOCSPGRP 和 SIOCGPGRP 命 令 来 修改 或 检查 
so_pgid 的 值 。 关 于 进程 组 的 更 详细 信息 请 参考 [Stevens 1992]. 

68 ”so_oobmark 标 识 在 输入 数据 流 中 最 近 收 到 的 带 外 数据 的 开始 点 。 第 16.11 节 将 讨论 插口 
对 带 外 数据 的 支持 ， 第 29.7 节 将 讨论 TCP 中 的 带 外 数据 的 语义 。 
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69-82 每 一 个 播 口 包括 两 个 数据 缓存 ，so_rcv 和 so_snd， 分 别 用 来 缓存 接收 或 发 送 的 数 
据 。so_rcv 和 so_snd 是 包含 在 插口 结构 中 的 结构 而 不 是 指向 结构 的 指针 。 我 们 将 在 第 16 章 
中 描述 插口 缓存 的 结构 和 使 用 。 

83-86 在 Net/3 中 不 使 用 so_tpcb。so_upcall 和 so._upcallarg 也 仅 用 干 Net/3 中 的 NFS 
软件 。 


NFS 与 通常 的 软件 不 太一 样 。 在 很 大 程度 上 它 是 一 个 进程 级 的 应 用 但 却 在 内 核 中 
运行 。 当 数据 到 达 接 收 绫 存 时 ,通过 so_upcal1 来 触发 NEFS 的 输入 处 理 。 在 这 种 情 
况 下 ,tsleep 和 wakeup 机 制 是 不 合适 的 ， 因 为 NFS 协 议 是 在 内 核 中 运行 而 不 是 作 
为 一 个 普通 进程 。 


文件 socketvar .hb 和 uipc_socket2.c 定 义 了 几 个 简化 播 口 县 代 码 的 宏和 函数 。 图 1$-9 
对 它们 进行 了 描述 


r 










名 PR Ho x 
so 中 指定 的 协议 鉴 求 每 :个 发 送 系统 调用 产生 “个 协议 请 求 吗 ? 


| int Sosendallatonce (struct socket *so); 












sosendjallatonce 











soisconnecting Yr FIR AS UE ESO. ISCONNECTING 
| dnt Soisconnecting(struct socket *so); 
| Soisconnected £515&15-30 
soreedable dA iso Ef i US Hi AR FEL gius In fA E32 


int soreadable(struct socket *50); 


插 11so 上 的 号 调用 不 阻塞 就 返 辐 吧 ? 
int sowriteable(struct socket *so); 
COR ESSO CANTSENDMORE. PRAE A GOES ELTE E] ERE 
int Socantsendmore(struct socket *so); 


设置 插口 标志 SoO_CANTRCVMORE。 唤 醒 所 有 等 待 在 接收 缓 在 上 的 进程 








sowri“eable 
















Socan:sendmore 


Socan*-rcvmore 


int Socantrcevmore(struct socket *so); 





soisdisconnecting | iifk&ss r1scOoNNECTINGEuE. We TÉSS ISDISCONG,. SS_CANTRCVMORE 
和 SS_CANTSENDMORE 标 志 。 唤 醒 所 有 等 待 在 播 11 上 的 进程 


int soisdisconnecting(struct socket *so); 









ikSS ISCONNECTING. SS ISCONNECTEDÍÉNSS ISDISCONNECTING 
标志 。 设 置 SS_CANTRCVMORE 和 SS_CANTSENDMORE 标 志 。 了 唤醒 所 有 等 待 在 
插 站 上 的 进程 或 等 竺 close 人 完成 的 进程 


int soisdisconnected(struct socket *50); 


soisdisconnected 





soginsque 将 so 插入 head 指向 的 队列 中 。 如 果 4 等 二 0， 插口 被 插 到 存放 未 完成 的 连接 的 
so_a0 队 列 的 后 而 。 否 则 ,插口 被 插 到 存放 准备 接受 的 连接 的 队列 sc_s 的 后 而 。 
Net /1 错误 地 将 打 11 插 到 队列 的 前 而 
int soqinsque (struct socket *head, struct socket *so, int q); 
soqrenque 从 队列 g 中 删除 so 。 通 过 so- >so_Ahead 来 定位 播 口 队列 


int soqremque(struct socket *so, int 4); 








图 15-9 插口 的 宏和 函数 
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15.4 系统 调用 


进程 同 内 核 交 互 是 通过 一 组 定义 好 的 函数 来 进行 的 ， 这 些 函 数 称 为 系统 调用 。 在 讨论 支 
持 网 络 的 系统 调用 之 前 ， 我 们 先 来 看 看 系统 调用 机 制 的 本 身 。 

从 进程 到 内 核 中 的 受 保护 的 环境 的 转换 是 与 机 器 和 实现 相关 的 。 在 下 面 的 讨论 中 ， 我 们 
使 用 Net/3 在 386 上 的 实现 来 说 明 如 何 实现 有 关 的 操作 。 

在 BSD 内 核 中 ， 每 一 个 系统 调用 均 被 编号 ， 当 进程 执行 一 个 系统 调用 时 ， 硬 件 被 配置 成 
仅 传送 控制 给 一 个 内 核 函 数 。 将 标识 系统 调用 的 整数 作为 参数 传 给 该 内 核 函 数 。 在 386 实 现 中 ， 
这 个 内 核 函 数 为 syscal1。 利 用 系统 调用 的 编号 ，syscall 在 表 中 找到 请 求 的 系统 调用 的 
sysent 结 构 。 表 中 的 每 一 个 单元 均 为 一 个 sysent 结 构 。 

yo, /* number of arguments */ 


int (*sy call) (); /* implementing function */ 
) /* system call table entry */ 


表 中 有 几 个 项 是 从 sysent 数 组 中 来 的 ， 该 数组 是 在 kern/init_sysent.c 中 定义 的 。 


struct sysent sysent[] = { 
[* tf 
(3, recvmsg ), /* 27 = recvmsg */ 
(3, sendmsg }, /* 28 - sendmsg */ 
{ 6, recvfrom ), /* 29 = recvfrom */ 
(3, accept }, /* 30 = accept */ 
(3, getpeername }, /* 3legetpeername */ 
(3, getsockname j, /* 32 - getsockname */ 
/* 2*4 


} 

例如 ，recvmsg 系 统 调用 在 系统 调用 表 中 的 第 27 个 项 ， 它 有 两 个 参数 ， 利 用 内 核 中 的 
recvmsg 困 数 实现 。 

syscall 将 参数 从 调用 进程 复制 到 内 核 中 ， 并 且 分 配 一 个 数组 来 保存 系统 调用 的 结果 。 
然后 ， 当 系统 调用 执行 完成 后 ，syscal1 将 结果 返回 给 进程 。syscal1 将 控制 交 给 与 系统 调 
用 相对 应 的 内 核 函 数 。 在 386 实 现 中 ， 调 用 有 点 像 : 


struct sysent *callp; 
error - (*callp-»sy call) (p, args, rval); 


这 里 指针 callp 指 向 相关 的 sysent 结 构 ; 指针 p 则 指向 调用 系统 调用 的 进程 的 进程 表 项 ; 
args 作 为 参数 传 给 系统 调用 ， 它 是 一 个 32 bit 长 的 字数 组 ， 而 rval 则 是 一 个 用 来 保存 系统 调用 
的 返回 结果 的 数组 ， 数 组 有 两 个 元 素 ， 每 个 元 素 是 一 个 32 bit 长 的 字 。 当 我 们 用 “系统 调用 ” 
这 个 词 时 ， 我 们 指 的 是 被 syscal1l 调 用 的 内 核 中 的 函数 ， 而 不 是 应 用 调用 的 进程 中 的 函数 。 

syscall 期 望 系统 调用 函数 ( 即 sy_call 指 向 的 函数 ) 在 没有 差错 时 返回 09， 否则 返回 非 0 
的 差错 代码 。 如 果 没 有 差错 出 现 ， 内 核 将 rval 中 的 值 作为 系统 调用 (应 用 调用 的 ) 的 返回 值 传 
送 给 进程 。 如 果 有 差错 ，syscall 忽 上 略 rval 中 的 值 ， 并 以 与 机 器 相关 的 方式 返回 差错 代码 
给 进程 ， 使 得 进程 能 从 外 部 变量 errno 中 得 到 差错 代码 。 应 用 调用 的 函数 则 返回 -1 或 一 个 空 
指针 表示 应 用 应 该 查看 errno 获 得 差错 信息 。 

在 386 上 的 实现 ， 设 置 进位 比特 (carry bib 来 表示 syscal1 的 返回 值 是 一 个 差错 代码 。 进 
程 中 的 系统 调用 残 桩 将 差错 代码 赋 给 errno， 并 返回 -1 或 空 指针 给 应 用 。 如 果 没 有 设置 进位 
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比特 ， 则 将 syscall 返 回 的 值 返回 给 进程 中 的 系统 调用 的 残 桩 。 
上 总 之 ， 实 现 系统 调用 的 函数 “返回 ”两 个 值 ， 一 个 给 syscall AA, 在 没有 差错 的 情况 
下 ，syscall 将 另 一 个 (在 rval 中 ) 返 回 给 调用 进程 。 


15.4.1 举例 
socket 系 统 调用 的 原型 是 : 


int socket(int domain, int type, int protocol); 


实现 socket 系 统 调用 的 内 核 函 数 的 原型 是 : 


struct socket args ( 
int domain; 
int type; 
int protocol; 
) 
Socket(struct proc *p, struct socket args *uap, int *retval); 


当 一 个 应 用 调用 socket 时 ， 进 程 用 系统 调用 机 制 将 三 个 独立 的 整数 传 给 内 核 。syscall 
将 参数 复制 到 32bit 值 的 数组 中 ， 并 将 数组 指针 作为 第 二 个 参数 传 给 socket 的 内 核 版 。 内 核 
版 的 socket 将 第 二 个 参数 作为 指向 socket_args 结 构 的 指针 。 图 15-10 显 示 了 上 述 过 程 。 


从 用 户 空间 复制 到 
内 核 空间 的 参数 


syscall O args tol args [2] NEM args [7] 
内核 socket ) | 


V VÀ 
BSOCket args() 


图 15-10 _ socket 参数 处 理 
同 socket 类 似 ， 每 一 个 实现 系统 调用 的 内 核 国 数 将 args 说 明成 一 个 与 系统 调用 有 关 的 
结构 指针 ， 而 不 是 一 个 指向 32 bit 的 字 的 数组 的 指针 。 
当 原 型 无 效 时 ， 隐 式 的 类 型 转换 仅 在 传统 的 K&R C 中 或 ANSI C 中 是 合法 的 。 如 
果 原 型 是 有 效 的 ， 则 编译 器 将 产生 一 个 警告 。 
syscall 在 执行 内 核 系统 调用 函数 之 前 将 返回 值 置 为 0。 如 果 没 有 差错 出 现 ， 系 统 调用 函 
数 直接 返回 而 不 需 清 除 *retval，syscal1 返 回 0 给 进程 。 





15.4.2 系统 调用 小 结 


图 15-11 对 与 网 络 有 关 的 系统 调用 进行 了 小 结 
我 们 将 在 本 章 中 讨论 建立 、 服 务 器 、 客户 和 终止 类 系统 调用 。 输入 、 输出 类 系统 调用 将 
在 第 16 章 中 介绍 ， 管 理 类 系统 调用 将 在 第 17 章 中 介绍 。 
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"T socket 在 指明 的 通信 域内 产生 一 个 未 命名 的 插口 
| bind 分 配 一 个 本 地 地 址 给 插 门 


; listen 使 插曲 准备 接收 连接 请 求 
accept 等 待 并 接受 连接 


connect 同 外 部 插 11 建 立 连 接 
read 接收 数据 到 - -个 缓存 中 
readv 接收 数据 色 多 个 缓存 中 
输 入 recy 间 明 选项 接收 数据 
recvfrom 接收 数据 和 发 送 者 的 地 址 
recvmsg 接收 数据 到 多 个 组 在 中 、 接 收 控制 信息 和 发 送 者 地 址 ; 指明 接收 选项 
发 送 一 个 缓存 由 的 数据 
发 送 多 个 缓存 中 的 数据 
E^] 出 send 间 明 选项 发 送 数据 
sendto 发 送 数据 到 指明 的 地 址 
sendmsg 从 多 个 缓存 发 送 数据 和 控制 信息 到 指明 的 地 址 ; 指明 发 送 选 项 


i 
n shutdown 终止 一 个 或 两 个 方向 上 的 连接 
终 止 | ciose 终止 连接 并 释放 择 11 

fent] 修改 VO 语义 

各 类 插口 操作 

设置 插口 或 协议 选项 

得 到 插 11 或 协议 选项 

得 到 分 配给 播 吕 的 本 地 地 址 

得 人 到 分 配给 插口 的 过 端 地 址 
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getsockname 





getpeername 





图 15-11 Net/3 中 的 网 络 系统 调用 
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图 15-12 网 络 系统 调用 流程 图 
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图 15-12 画 出 了 应 用 使 用 这 些 系统 调用 的 顺序 。 大 方块 中 的 MO 系 统 调用 可 以 在 任何 时 候 调 
用 。 该 图 不 是 一 个 完整 的 状态 流程 图 ， 因 为 一 些 正 确 的 转换 在 本 图 中 没有 画 出 ; 仅 显示 了 一 
些 常见 的 转换 。 

15.5 进程 、 描 述 符 和 插口 


在 描述 插口 系统 调用 之 前 ， 我 们 需要 介绍 将 进程 、 描 述 符 和 播 口 联系 在 一 起 的 数据 结构 。 
图 15-13 给 出 了 这 些 结构 以 及 与 我 们 的 讨论 有 关 的 结构 成 员 。 关 于 文件 结构 的 更 复杂 的 解释 请 
参考 [Leffer ea al. 1989]. 


procí) filedesc() *file()[] 









fd ofiles 


Socketops: 


SOO, write 
Soo ioctl 


Soo, select 
Soo, close 









protoasw() 


图 15-13 进程 、 文 件 和 插口 结构 


实现 系统 调用 的 函数 的 第 一 个 参数 总 为 p， 即 指向 调用 进程 的 proc 结 构 的 指针 。 内 核 利 用 
proc 结 构 记 录 进 程 的 有 关 信 息 。 在 proc 结 构 中 ，p_fd 指 向 filedesc 结 构 ， 该 结构 的 主要 
功能 是 管理 fd_ofiles 指 向 的 描述 符 表 。 描 述 符 表 的 大 小 是 动态 变化 的 ， 由 一 个 指向 file 结 
构 的 指针 数组 组 成 。 每 一 个 file 结 构 描述 一 个 打开 的 文件 ， 该 结构 可 被 多 个 进程 共享 。 

图 15-13 仅 显示 了 一 个 file 结 构 。 通 过 p->p_fd->fd_ofiles[f9] 访 问 到 该 结构 。 在 
file 结 构 中 ， 有 两 个 结构 成 员 是 我 们 感 兴 趣 的 : f_ops 和 f_data。1I/O 系 统 调用 (如 read 和 
write) 的 实现 因 描述 符 中 的 VO 对 象 类 型 的 不 同 而 不 同 。£f_ops 指 向 fileops 结 构 ， 该 结构 
包含 一 张 实现 read、write、ioctl、select 和 close 系 统 调用 的 函数 指针 表 。 图 15-13 
显示 f_ops 指 向 一 个 全 局 的 fileops 结 构 ， 即 socketops， 该 结构 包含 指向 插口 用 的 函数 
的 指针 。 

f_data 指 向 相关 1/O 对 象 的 专用 数据 。 对 于 插口 而 言 ，f_data 指 向 与 描述 符 相 关 的 
socket 结 构 。 最 后 ，socket 结 构 中 的 so_proto 指 向 产生 插口 时 选中 的 协议 的 protosw 结 
构 。 回 想 一 下 ， 每 一 个 protosw 结 构 是 由 与 该 协议 关联 的 所 有 插口 共享 的 。 

下 面 我 们 开始 讨论 系统 调用 。 
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15.6 ”socket 系统 调用 


socket 系 统 调用 产生 一 个 新 的 插口 ， 并 将 插口 同 进程 在 参数 domain、type 和 
protocol 中 指定 的 协议 联系 起 来 。 该 函数 (如 图 15-14 所 示 ) 分 配 一 个 新 的 描述 符 ， 用 来 在 后 
续 的 系统 调用 中 标识 插口 ， 并 将 描述 符 返 回 给 进程 。 


uipc_syscalls.c 
42 struct socket_args { pe_sy 


43 int domain; 
44 int type; 

45 int protocol; 
46 }; 


47 socket (p, uap, retval) 
48 struct proc *p; 
49 struct socket args *uap; 


50 int *retval; 

51 ( 

52 struct filedesc *fdp = p-»p fd; 
53 struct socket *so; 

54 struct file *fp; 

55 int fd, error; 

56 if (error = fallocí(p, &fp, &fd)) 
57 return (error); 

58 fp-»f flag = FREAD | FWRITE; 

59 fp-»f type = DTYPE, SOCKET; 

60 fp-»f ops = &socketops; 

61 if (error = socreate(uap-»domain, &so, uap-»type, uap-»protocol)) ( 
62 fdp-»fd ofiles[fd] = 0; 

63 ffree(fp); 

64 ) else ( 

65 fp->f_data = (caddr t) so; 
66 *retval - fd; 

67 } 

68 return (error); 

69 } 





wipc syscalls.c 


图 15-14 _ socket 系统 调用 


42-55 在 每 一 个 系统 调用 的 前 面 ， 都 定义 了 一 个 描述 进程 传递 给 内 核 的 参数 的 结构 。 在 这 
种 情况 下 ， 参 数 是 通过 socket_args 传 的。 所 有 插口 层 系 统 调用 都 有 三 个 参数 : p， 指 向 
调用 进程 的 proc 结 构 ; uap， 指 向 包含 进程 传送 给 系统 调用 的 参数 的 结构 ;，retval， 用 来 
接收 系统 调用 的 返回 值 。 在 通常 情况 下 ， 和 忽略 参数 pD 和 retval， 引 用 uap 所 指 的 结构 中 的 内 
容 。 

56-60 ”falloc 分 配 一 个 新 的 file 结 构 和 fofiles 数 组 (图 15-13) 中 的 一 个 元 素 。fp 指 
向 新 分 配 的 结构 ，fd 则 为 结构 在 数组 fd_ofiles 中 的 索引 。 
socket 将 file 结 构 设 置 成 可 读 、 可 写 ， 并 且 作 为 一 个 插口 。 
将 所 有 插口 共享 的 全 局 fileops 结 构 socketops 连 接 到 
f_ops 指 向 的 file 结 构 中 。socketops 变 量 在 编译 时 被 初始 
化 ， 如 图 15-15 所 示 。 

60-69 socreate 分 配 并 初始 化 一 个 socket 结 构 。 如 果 ”图 15-15 socketops: 插口 
socreate 执 行 失败 ， 将 差错 代码 赋 给 error， 释 放 file 结 用 全 局 fileops 结 构 

























soo read 
Soo write 
soo ioctl 
soo select 
soo close 


fo, read 
fo write 
fo ioctl 
fo select 
fo close 
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构 ， 清 除 存放 描述 符 的 数组 元 素 。 如 果 socreate 执 行 成 功 ， 将 f_data 指 向 socket 结 构 ， 
建立 插口 和 描述 符 之 间 的 联系 。 通 过 *retval 将 fd 返回 给 进程 。socket 返 回 0 或 返回 由 
socreate 返 回 的 差错 代码 。 


15.6.1 socreate 函 数 


大 多 数 插口 系统 调用 至 少 被 分 成 两 个 函数 ， 与 socket 和 socreate 类 似 。 第 一 个 函数 从 
进程 那里 获取 需要 的 数据 ， .调用 第 二 个 函数 soxxx 来 完成 功能 处 理 ， 然 后 返回 结果 给 进程 。 这 
种 分 成 多 个 国 数 的 做 法 是 为 了 第 二 个 函数 能 直接 被 基于 内 核 的 网 络 协 议 调 用 ， 如 NEFS 。 
socreate 的 代码 如 图 15-16 所 示 。 





43 socreate{dom, aso, type, proto) uipc_socket.c 
44 int dom; 
45 struct socket **aso; 
46 int type; 
47 int proto; 
48 ( 
49 struct proc *p = curproc; /* XXX */ 
50 struct protosw *prp; 
51 struct socket *so; 
52 int error; 
53 if (proto) 
54 prp = pffindproto(dom, proto, type): 
55 else 
56 prp = pffindtype(dom, type); 
57 if (prp == 0 |] prp-»pr usrreq == 0) 
58 return (EPROTONOSUPPORT); 
59 if (prp-»pr type !- type) 
60 return (EPROTOTYPE); 
61 MALLOC (so, struct socket *, sizeof(*so), M SOCKET, M WAIT); 
62 bzero((caddr.t) so, sizeof (*so)); 
63 SO-»SsO type = type; 
64 if (p-»p ucred-»cr.uid == 0) 
65 SO-»SO State = SS PRIV; 
66 SO-»SO proto = prp; 
67 error - 
68 (*prp-»pr usrreq) (so, PRU ATTACH, 
69 (struct mbuf *) 0, (struct mbuf *) proto, (struct mbuf *) 0); 
70 if (error) ( 
71 So--»so state |= SS, NOFDREF; 
72 sofree(so); 
73 return (error); 
74 } 
75 *aso = SO; 
76 return (0); 
77 ) . 
uipc, socket.c 
图 15-16 socreatep 
43-52 socreate 共 有 四 个 参数 : dom， 请 求 的 协议 域 (如 ，PF_INET); aso， 保 存 指向 一 


个 新 的 socket 结 构 的 指针 ; type， 请 求 的 插口 类 型 (如 ，SOCK_STREAM); proto， 请 求 的 


l. 发 现 协议 交换 表 
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53-60 如果 ptrokco 等 于 音 0 值 ，pffinaprorto 查 找 进程 请 求 的 协议 。 如 果 proto 等 于 0， 
bffinatype 用 由 type 指 定 的 语义 在 指定 域 中 查找 一 种 协议 。 这 两 个 函数 均 返 回 -个 指向 匹 
配 协议 的 protosw 结 构 的 指针 或 空 指针 ( 参 攻 第 7.6 节 )。 

2. 分 配 并 初始 化 socket 结构 


调用 进程 有 超级 用 户 权 限 ， 则 设置 插口 结构 中 的 SS_PRIV 标 志 。 

3. PRU_ATTACH 请 求 
67-69 在 与 协议 无 关 的 播 日 层 中 发 送 与 协议 有 关 的 请 求 的 第 一 个 例子 出 现在 socreate 中 。 
同 想 在 第 7.4 告 和 图 15-13 中 ，so->so_proto->pr_usrreq 是 一 个 指向 与 插口 so 相关 联 的 
协议 的 用 户 请 求 函数 指针 。 每 一 个 协议 均 提 供 了 一 个 这 样 的 函数 来 处 理 从 插口 层 来 的 通信 请 
求 。 函 数 原型 是 : 

int pr usrreq (struct socket *so, int req, struct mbuf *mo, *ml, *m2); 

第 一 个 参数 是 一 个 指向 相关 插口 的 指针 ，reg 是 一 个 标识 请 求 的 常数 。 后 三 个 参数 (m9， 
ml，m2) 因 请 求 不 同 而 异 。 它 们 总 是 被 作为 一 个 mbuf 结 构 指 针 传 递 ， 即 使 它们 是 其 他 的 类 型 。 
在 必要 的 时 候 ， 进 行 类 似 转换 以 避免 编译 器 的 警告 。 

图 15-17 列 出 了 pr_usrreg 函 数 提供 的 通信 请 求 。 每 一 个 请 求 的 语义 起 决 于 服务 请 求 的 
协议 。 
























— 
2 B 
i KK 7 描 述 
PRU. ABORT 异常 终止 每 个 存 什 的 连接 
PRU ACCEPT address 等 待 并 接受 连接 
PRU ATTACH protocol | Feu remm 
PRU BIND address Zia Hbi fd F1 
PRU. CONNECT address 癌 地 址 建立 关联 或 连接 
PRU CONNECT2 socket2 TENA E DET n 
PRU DETACH dfi XH] 
PRU DISCONNECT LITT LRL SS Hed Tu A X 
PRU LISTEN 开始 监听 连接 请 求 
PRU_PEERADDR buffer VA d 5348 FL KERIO XJ Bb RE 
PRU RCVD flags 进程 己 收 人 到 一 些 数据 
PRU RCVOOB buffer flags 接收 OOB 数 据 
PRU, SEND data address control 发 送 正 常数 据 
PRU, SENDOOB data address control 发 送 DOB 数 据 
PRU. SHUTDOWN 结束 问 男 -地 址 的 通信 
| PRU-SOCKADDR buffer y op "d 1 HORAS AS RE RE Je 
一 一 ——ÀLL 








图 15-17 pr usrreqtA 
PRU_CONNECT2 请 求 只 用 于 Unix 域 ， 它 的 功能 是 将 两 个 太 地 插口 连接 起 来 。 
Unix 的 管道 (pipe) 就 是 通过 这 种 方式 来 实现 的 。 
4. 退出 处 理 
70-77 回 到 socreate， 函 数 将 协议 交换 表 连 接 到 插口 ， 发 送 PRU_ATTACH 请 求 通 知 协议 
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已 建立 一 个 新 的 连接 端点 。 访 请求 引起 大 多 数 协议 ， 如 TCP 和 UDP， 分 配 并 初始 化 所 有 支持 
新 的 连接 端点 的 数据 结构 。 
15.6.2 超级 用 户 特权 
图 15-18 列 出 了 要 求 超级 用 户 权 限 的 网 络 操作 。 








in control . 分 配 接 让 地 址 、 网 络 掩 码 、 日 的 地 址 
ir control 。 分 配 广 播 地 址 


in pcbbind . HET Ah PI1024[ Internet H1 
ifioctl . gae BE LIUUE 

ifiocti . 配 填 多 播 地 址 ( 见 下 面 的 说 明 ) 

rip usrreq Pul: :个 ICMP、IGMP 或 原始 IP 括 [1 
slopen 将 :个 SLIP 设 备 与 :个 ty 设备 联系 起 来 | 图 5- 











图 15-18 ”New3 中 的 超级 用 户 特权 





当 多 播 ijoct1l 命 令 (SIOCADDMULTI 和 SIOCDELMULTI) 是 被 TP_ADD.. 
MEMBERSHIP 和 ITIP_DROP_MEMBERSHIPE 插 口 选 项 间接 激活 时 ， 它 可 以 被 非 超级 用 
Pid. 

在 图 15-18 中 , “进程 ” 栏 表示 请 求 必 须 由 超级 用 户 进程 来 发 起 , “插口 ” 栏 表示 请 求 必须 
是 针对 由 超级 用 户 产生 的 插口 (也 就 是 说 ， 进程 不 需要 超级 用 户 权 限 ， 而 只 需 有 访问 插口 的 权 
限 ， 习 题 15.1)。 在 Net/3 中 ，suser 函 数 用 来 判断 调用 进程 是 否 有 超级 用 户 权 限 ， 通 过 
SS_PRIV 标 志 来 判断 一 个 插口 是 否 由 超级 用 户 进程 产生 。 

因为 rip_usrreqg 在 用 socreate 产 生 插 口 后 立即 检查 SS_PRIV 标 志 ， 所 以 我 们 认为 内 
有 超级 用 户 进 程 才 能 访问 这 个 函数 。 


15.7 getsock 和 sockargs 函 数 





这 两 个 函数 重复 出 现在 插口 系统 调用 中 。getsock 的 功能 是 将 描述 符 映射 到 一 个 文件 表 
项 中 ，sockargs 将 进程 传 入 的 参数 复制 到 内 核 中 的 一 个 新 分 配 的 mbuf 中 。 这 两 个 函数 都 要 
检查 参数 的 正确 性 ， 如 果 参 数 不 合 法 ， 则 返回 相应 的 非 0 差错 代码 。 

图 15-19 列 出 了 getsock 函 数 的 代码 。 

754-767 getsock 图 数 利 用 fdp 查 找 描述 符 fdes 指 定 的 文件 表 项 ，fqdp 是 指向 filedesc 
结构 的 指针 。getsock 将 打开 的 文件 结构 指针 赋 给 fpp， 并 返回 ， 或 者 当 出 现下 列 情况 时 返 
回 差错 代码 : 描述 符 的 值 超过 了 范围 而 不 是 指向 一 个 打开 的 文件 ; 描述 符 没 有 同 插口 建立 联 
图 15-20 列 出 了 sockargs 函 数 的 代码 。 
768-783 如 图 15-4 中 所 描述 的 ，sockargs 将 进程 传 给 系统 调用 的 参数 的 指针 从 进程 复制 
到 内 核 而 不 是 复制 指针 指向 的 数据 ， 这 样 做 是 因为 每 一 个 参数 的 语义 只 有 相对 应 的 系统 调用 
才 知 道 ， 而 不 是 针对 所 有 的 系统 调用 。 多 个 系统 调用 在 调用 sockargs 复 制 参数 指针 后 ， 将 
指针 指向 的 数据 从 进程 复制 到 内 核 中 新 分 配 的 mbuf 中 。 例 如 ，sockargs 将 bind 的 第 二 个 参 
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数 指向 的 本 地 插口 地 址 从 进程 复制 到 一 个 mbuf 中 。 


754 getsock(fdp, fdes, fpp) 
755 struct filedesc *fdp; 


uipc syscalls.c 


756 int fdes; 

757 struct file **fpp; 

758 ( 

759 struct file *fp; 

760 if ((unsigned) fdes >= fdp-»fd nfiles |I 
761 (fp = fdp-»fd ofiles[fdes]) == NULL) 
762 return (EBADF); 

763 if (fp-»f type != DTYPE SOCKET) 

764 return (ENOTSOCK); 

765 *fpp = fp; 

766 return (0); 

767 ) 


uipc. syscalls.c 
图 15-19 getsock Á% 


uipc_syscalls.c 

768 sockargs (mp, buf, buflen, type) 

769 struct mbuf **mp; 

770 caddr t buf; 

771 int buflen, type; 

772 ( 

773 struct sockaddr *sa; 

774 struct mbuf *m; 

775 int error; 

776 if ((u,int) buflen > MLEN) ( 

777 return (EINVAL); 

778 H 

779 m - m get (M WAIT, type); 

780 if (m == NULL) 

781 return (ENOBUFS); 

782 m-»m len - buflen; 

783 error = copyin(buf, mtod(m, caddr t), (u int) buflen); 

784 if (error) 

785 (void) m £ree(m); 

786 eise ( 

787 *mp - m; 

788 if (type -- MT SONAME) ( 

789 Sa « mtod(m, struct sockaddr *); 

790 Sa-»sa len = buflen; 

791 ) 

792 . 

793 return (error); 

794 ) - 
"wipc syscalls.c 





图 1$-20 sockargs 国 数 


如 果 数 据 不 能 存 人 一 个 mbuf 中 或 无 法 分 配 mbuf， 则 sockargs 返 回 EINVAL 或 ENOBUFS。 
注意 ， 这 里 使 用 的 是 标准 的 mbuf 而 不 是 分 组 首部 的 mbuf。copyin 的 功能 是 将 数据 从 进程 复 
制 到 mbuf 中 。copyin 返 回 的 最 常见 的 差错 是 EACCES， 它 表示 进程 提供 的 地 址 不 正确 。 
784-785 ” 当 出 现 差错 时 ， 丢 弃 mbuf， 并 返回 差错 代码 。 如 果 没 有 差错 ， 通 过 mp 返回 指向 
mbuf 的 指针 ，sockargs 返 回 0。 

786-794 如果 type 等 于 MT_SONAME， 则 进程 传 入 的 是 一 个 sockaddr 结 构 。sockargs 
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构 ， 结 构 内 的 大 小 也 是 正确 的 。 
Net/3 确 实 包 含 了 一 段 代码 来 支持 在 pre-4.3BSD Reno 系 统 上 编译 的 应 用 ， 这 些 应 
用 的 sockaddr 结 构 中 并 没有 sa_len 字 段 ， 但 是 图 15-20 中 没有 显示 这 段 代码 。 


15.8 bind 系 统 调用 


bind 系 统 调用 将 一 个 本 地 的 网 络 运输 层 地 址 和 插口 联系 起 来 。 一 般 来 说 ， 作 为 客户 的 进 
程 并 不 关心 它 的 本 地 地 址 是 什么 。 在 这 种 情况 下 ， 进 程 在 进行 通信 之 前 没有 必要 调用 binad; 
内 核 会 自动 为 其 选择 一 个 本 地 地 址 。 

服务 器 进程 则 总 是 需要 绑 定 到 一 个 已 知 的 地 址 上 。 所 以 ， 进 程 在 接受 连接 (TCP) 或 接收 数 
据 报 (UDP) 之 前 必须 调用 binqa， 因 为 客户 进程 需要 同 已 知 的 地 址 建立 连接 或 发 送 数据 报到 已 
知 的 地 址 。 

插口 的 外 部 地 址 由 connect 指 定 或 由 允许 指定 外 部 地 址 的 写 调用 (sendto 或 sendmsg) 
指定 。 
图 15-21 列 出 了 bind 调 用 的 代码 。 


70 struct bind args { 





uipc_syscalls.c 


71 int S; 

72 caddr, t name; 

73 int namelen; 
74 ); 


75 bind(p, uap, retval) 
76 struct proc *p; 
77 struct bind args *uap; 


78 int *retval; 

79 ( 

80 struct file *fp; 

81 struct mbuf *nam; 

82 int error; 

83 if (error = getsock(p-»p fd, uap-»s, &fp)) 

84 return (error); 

85 if (error = sockargs (&nam, uap-»name, uap-»namelen, MT SONAME)) 
86 return (error); 

87 error = sobind((struct socket *) fp-»f data, nam); 
88 m freemínam); 

89 return (error); 

90 } 


M ———————— Wipc_syscalls.c 
图 15-21 bind 
70-82 bind 调 用 的 参数 有 (在 bind_args 结 构 中 ): s， 插 口 描述 符 ，name， 包 含 传输 地 址 
(如 ，sockaddr_in 结 构 ) 的 组 存 指针 ;， 和 namelen， 缓 存 大 小 。 
83-90 getsock 返 回 描述 符 的 Eile 结构 ，sockargs 将 本 地 地 址 复制 到 mbvf 中 ，sobina 
将 进程 指定 的 地 址 同 插口 联系 起 来 。 在 bing 返 回 sobinad 的 结果 之 前 ， 释 放 保存 地 址 的 mbuf。 
从 技术 上 讲 ， 一 个 描述 符 ， 如 s， 标 识 一 个 同 socket 结 构 相 关联 的 file 结 构 ， 而 它 
本 身 并 不 是 一 个 socket 结 构 。 将 这 种 描述 符 看 作 播 口 是 为 了 简化 我 们 的 讨论 。 
我 们 将 在 下 面 的 讨论 中 经 常 看 到 这 种 模式 ， 进程 指定 的 参数 被 复制 到 mbuf， 必 要 时 还 要 
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进行 处 理 ， 然 后 在 系统 调用 返回 之 前 释放 mbuf。 虽 然 mbuf 是 为 方便 处 理 网 络 数据 分 组 而 设计 
的 ， 但 是 将 它们 用 作 一 般 的 动态 内 存 分 配 机 制 也 是 有 效 的 。 

bind 阅 明 的 另 一 种 模式 是 : 许多 系统 调用 不 使 用 retval。 在 第 15.4 节 中 我 们 已 提 到 过 ， 
在 syscall 将 控制 交 给 相应 的 系统 调用 之 前 总 是 将 retval 清 0。 如 果 0 不 是 合适 的 返回 值 ， 


系统 调用 并 不 需要 修改 retval。 4 
sobindeR Zi 
如 图 1$-22 所 示 ，sobind 是 一 个 封装 器 ， 它 给 与 插口 相关 联 的 协议 发 送 PRU_BIND 请 求 。 
uipc socket.c 





78 sobind(so, nam) 
79 struct socket *so; 
80 struct mbuf *nam; 


81 ( 

82 int S = splnet(); 

83 int error; 

84 error - 

85 (*so-»so proto-»pr. usrreq) (so, PRU BIND, 

86 (struct mbuf *) 0, nam, (struct mbuf *) 0); 
87 splx(s); 

88 return (error); 

89 ) 


uipc socket.c 





[15-22 sobindp žk 


78-89 sobingd 发 送 PRU_BIND 请 求 。 如 果 请 求 成 功 ， 将 本 地 地 址 nam 同 插口 联系 起 来 ; d 
则 ， 返 回 差 错 代码 。 


15.9 1isten 系 统 调用 


1isten 系 统 调用 的 功能 是 通知 协议 进程 准备 接收 插 门 上 的 连接 请 求 ， 如 图 15-23 所 示 。 
它 同 时 也 指定 插口 上 可 以 排队 等 待 的 连接 数 的 门限 值 。 超 过 门限 值 时 ， 播 口 层 将 拒绝 进入 的 
连接 请 求 排队 等 待 。 当 这 种 情况 出 现时 ，TCP 将 忽略 进入 的 连接 请 求 。 进 程 可 以 通过 调用 
accept (第 15.11 节 ) 来 得 到 队列 中 的 连接 。 


一 一 一 一 一 一 一 一 uipc syscalls.c 
91 struct listen args ( 


92 int S; 
93 int backlog; 
94 }; 


95 listen(p, uap, retval) 
96 struct proc *p; 
97 struct listen args *uap; 


98 int *retval; 

99 ( 

10C struct file *fp; 

101 int error; 

102 if (error = getsock(p->p_fd, uap-»s, &fp)) 

103 return (error); 

104 return (solisten((struct socket *) fp-»f data, uap-»backlog)); 1 
105 J . & 
LL ——————————— Uipc_syscalls.c 


图 15-23 listen 系 统 调用 
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91-98 listen 系 统 调 用 有 两 个 参数 : 一 个 指定 插口 描述 符 ; 另 一 个 指定 连接 队列 门限 值 。 
99-105 getsock 返 回 描述 符 s 的 file 结 构 ，solisten 将 请 求 传递 给 协议 层 。 


solisten 函 数 


solisten 函 数 发 送 PRU_LISTEN 请 求 ， 并 使 插口 准备 接收 连接 ， 如 图 15-24 所 示 。 
90-109 在 solisten 发 送 PRU_LISTEN 请 求 日 pr_usrreq 返 回 后 ， 标 识 插口 处 于 准备 接收 连 
接 状态 。 如 果 当 pbr_usrreq 返 回 时 有 连接 正在 连接 队列 中 ， 则 不 设置 SS_ACCEPTCONN 标 志 。 

计算 存放 进入 连接 的 队列 的 最 大 值 ， 并 赋 给 so_alimit。NetU3 默 认 设 置 下 限 为 0， 上 限 
为 5(SOMAXCONN) 条 连接 。 





: uipc socket.c 
90 solisten(so, backlog) 
91 struct socket *so; 
92 int backlog; 
93 ( 
94 int S - splnet(), error; 
95 error - 
96 (*so-»so proto-»pr,usrreq) (so, PRU.LISTEN, 
97 (struct mbuf *) 0, (struct mbuf *) 0, (struct mbuf *) 0); 
98 if (error) ( 
99 splx(s): 
100 return (error); 
101 ) 
102 if (so-»so,q == 0) 
103 So-»So options |= SO,ACCEPTCONN; 
104 if (backlog < O0) 
105 backlog - 0; 
106 So-»so qlimit = min(backlog, SOMAXCONN): 
107 splix(s); 
108 return (0); 
109 ) uipc socket.c 





图 15-24 _ solisten 畏 数 


15.10 tsleepfüwakeuptI 


当 一 个 在 内 核 中 执行 的 进程 因为 得 不 到 内 核资 源 而 不 能 继续 执行 时 ， 它 就 调用 tsleep 等 
待 。tsleep 的 原型 是 : 

int tsleep(caddr t chan, int pri, char *mesg, int timeo); 

tsleep 的 第 一 个 参数 chan， 被 称 之 为 等 待 通道 。 CERE AMORE RR 许 
多 进程 能 同时 在 同一 个 等 待 通道 上 睡眠 。 当 资源 可 用 或 事件 出 现时 ， 内 核 调用 wakeup， 并 将 
等 待 通道 作为 唯一 的 参数 传人 。wakeup 的 原型 是 : 

void wakeup(caddr t chan); 

所 有 等 待 在 该 通道 上 的 的 进程 均 被 唤醒 ， 并 被 设置 成 运行 状态 。 当 每 一 个 进程 均 恢复 执 
行 时 ， 内 核 安排 tsieep 返 回 。 

当 进 程 被 唤醒 时 ，tsleep 的 第 二 个 参数 pri 指 定 被 唤醒 进程 的 优先 级 。 pri 中 还 包括 几 个 
用 于 tsleep 的 可 选 的 控制 标志 。 通 过 设置 pri 中 的 PCATCH 标 志 ， 当 一 个 信号 出 现时 ， 
tsleep 也 返回 。mesg 是 一 个 说 明 调 用 csleep 的 字符 串 ， 它 将 被 放 在 调用 报 文 或 ps 的 输出 中 。 
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timeo 设 置 睡眠 间隔 的 上 限 值 ， 其 单位 是 时 钟 滴答 。 

图 15-25 列 出 了 tsleep 的 返回 值 。 

因为 所 有 等 待 在 同一 等 待 通 道上 的 进程 均 被 wakeup 唤 醒 ， 所 以 我 们 总 是 看 到 在 一 个 循环 中 
调用 sleep。 每 一 个 被 唤醒 的 进程 在 继续 执行 之 前 必须 检查 等 待 的 资源 是 否 可 得 到 ， 因 为 另 一 
个 被 唤醒 的 进程 可 能 已 经 先 一 步 得 到 了 资源 。 如 果 仍 然 得 不 到 资源 ， 进 程 再 调用 tsleep 等 待 。 


0 进程 被 一 个 匹配 的 wakeup 唤 醒 
EWOULDBLOCK | 进程 在 睡眠 timeo 个 时 钟 滴答 后 ， 在 匹配 的 wakeup 调 用 之 前 被 唤醒 
ERESTART 在 睡眠 期 间 信号 被 进程 处 理 ， 应 重新 启动 挂 起 的 系统 调用 

EINTR 在 睡眠 期 间 信号 被 进程 处 理 ， 挂 起 的 系统 调用 失败 





图 15-25 tsleep 的 返回 值 


多 个 进程 在 一 个 插口 上 睡眠 等 待 的 情况 是 不 多 见 的 ， 所 以 ， 通 常情 况 下 ， 一 次 调用 
wakeup 只 有 一 个 进程 被 内 核 唤 醒 。 
关于 睡眠 和 唤醒 机 制 的 详细 讨论 请 参考 [Leffler et al. 1989]。 


举例 

多 个 进程 在 同一 个 等 待 通 道上 睡眠 的 一 个 例子 是 : 让 多 个 服务 器 进程 读 同 一 个 UDP 插 口 。 
每 一 个 服务 器 都 调用 recvfrom， 并 且 只 要 没有 数据 可 读 就 在 tsleep 中 等 待 。 当 一 个 数据 报到 
达 播 口 时 ， 播 口 层 调 用 wakeup， 所 有 等 待 进程 均 被 放 和 人 运行 队列 。 第 一 个 运行 的 服务 器 读 取 了 
数据 报 而 其 他 的 服务 器 则 再 次 调用 tsleep。 在 这 种 情况 下 ， 不 需要 每 一 个 数据 报 启动 一 个 新 的 
进程 ， 就 可 将 进入 的 数据 报 分 发 到 多 个 服务 器 。 这 种 技术 同样 可 以 用 来 处 理 TCP 的 连接 请 求 ， 
只 需 让 多 个 进程 在 同一 个 插口 上 调用 accept。 这 种 技术 在 [Comer and Stevens 1993] 中 描述 。 


15.11 accept 系 统 调用 


调用 1isten 后 ， 进 程 调用 accept 等 待 连接 请 求 。accept 返 回 一 个 新 的 描述 符 ， 指 向 
一 个 连接 到 客户 的 新 的 插口 。 原 来 的 插口 s 仍 然 是 未 连接 的 ， 并 准备 接收 下 一 个 连接 。 如 果 
name 指 向 一 个 正确 的 缓存 ，accept 就 会 返回 对 方 的 地 址 。 

处 理 连 接 的 细节 由 与 播 口 相关 联 的 协议 来 完成 。 对 于 TCP 而 言 ， 当 一 条 连接 已 经 被 建立 ( 即 ， 
三 次 握手 已 经 完成 ) 时 ， 就 通知 插口 层 。 对 于 其 他 的 协议 ， 如 OSI 的 TP4， 只 要 一 个 连接 请 求 到 
达 ，tsleep 就 返回 。 当 进程 通过 在 插口 上 发 送 或 接收 数据 来 显 式 证 实 连接 后 ， 连 接 则 算 完 成 。 

图 15-26 说 明 accept 的 实现 。 


106 struct accept_args { uipc_syscalls.c 
107 int S; 

108 caddr_t name; 

109 int *anamelen; 

i10 }; 


111 accept (p, uap, retval) 
112 struct proc *p; 

113 struct accept_args *uap; 
114 int *retval; 


图 15-26 accept 系 统 调用 
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#15# 


struct file *fp; 

struct mbuf *nam; 

int namelen, error, S; 
struct socket *so; 


4 oc EK 367 


if (uap-»name && (error = copyin((caddr t) uap-»anamelen, 
(caddr t) & namelen, sizeof (namelen)))) 


return (error); 
if (error = getsock(p-»p fd, uap-»s, &fp)) 
return (error); 
S - Splnet(); 
SO = (struct socket *) fp-»f data; 
if ((so-»so,options & SO ACCEPTCONN) == 0) ( 
splx(s); 
return (EINVAL); 
} 
if ((so-»so,state & SS NBIO) && so->so_qlen == 0) ( 
Sspix(s): 
return (EWOULDBLOCK); 
) 
while (so-»so glen == 0 && so-»so error == 0) ( 
if (so-»so state & SS CANTRCVMORE) ( 
SO-»80 error = ECONNABORTED; 
break; 
) 
if (error = tsleep((caddr t) & so-»so timeo, PSOCK 
netcon, 0)) ( 
Splxí(s); 
return (error); 
) 
) 
if (so-»so,.error) ( 
error = S0-»80 error; 
So-»Sso error = 0; 
Splxís); 
return (error); 
} 
if (error = falloc(p, &fp, retval)) { 
splx(s); 
return (error); 
} 
( struct socket *aso = so-»S0 q; 
if (soqremque(aso, 1) == 0} 
panic("accept"); 
SO = aso; 


) 


fp-»f type DTYPE SOCKET; 
fp-»f flag FREAD | FWRITE; 
fp-»f ops = &socketops; 
fp-»f data = (caddr t) so; 
nam - m get(M WAIT, MT SONAME); 
(void) soaccept (so, nam); 
if (uap-»name) 1 

if (namelen » nam-»m len) 

namelen = nam-»m len; 
/* SHOULD COPY OUT A CHAIN HERE */ 


u 


| PCATCH, 


if ((error = copyout(mtod(nam, caddr t), (caddr t) uap-»name, 


(u int) namelen)) == 0) 


图 15-26 (£&) 
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173 error = copyout((caddr t) & namelen, 
174 (caddr t) uap-»anamelen, sizeof(*uap-»anamelen)); 
175 } 
176 m_freem(nam); 
177 spix(s); 
178 return (error); 
179 } 
uipc. syscalls.c 
图 15-26 (£3) 


106-114 accept 有 三 个 参数 : s 为 插口 描述 符 ;' name 为 缓存 指针 ，accept 将 把 外 部 主机 
的 运输 地 址 填 入 该 缓存 ;' anamelen 是 一 个 保存 缓存 大 小 的 指针 。 

1. 验证 参数 
116-134 accet 刻 将 缓存 大 小 (*anamelen) 峰 给 namelen，getsock 返 回 插口 的 file 结 
构 。 如 果 插 日 还 没有 准备 好 接收 连接 ( 即 ， 还 没有 调用 1isten)， 或 已 经 请 求 了 非 阻 塞 的 VO， 
且 没 有 连接 被 送 入 队列 ， 则 分 别 返 回 EINVAL 或 EWOULDBLOCK。 

2. 等 待 连接 
135-145 ” 当 出 现下 列 情况 时 ，while 循 环 退 出 : 有 一 条 连接 到 达 ; 出 现 差 错 ; 或 插口 不 能 
再 接收 数据 。 当 信号 被 捕获 之 后 (tsleep 返 回 EINTR)，accept 并 不 自动 重新 启动 。 当 协议 
层 通 过 sonewconn 将 一 条 连接 桂 入 队列 后 ， 唤 醒 进 程 。 

在 循环 内 ， 进 程 在 tsleep 中 等 待 ， 当 有 连 楼 到达 时 ，tsleep 返 回 9。 如 果 tsleep 被 信 
号 中 断 或 插口 被 设置 成 非 阻 塞 ， 则 accept 返 回 EINTR 或 EWOULDBLOCK( 图 15-25)。 

3. 异步 差错 
146-151 ”如 果 进 程 在 睡眠 期 间 出 现 差 错 ， 则 将 插口 中 的 差错 代码 赋 给 accept 中 的 返回 码 ， 
清除 插口 中 的 差错 码 后 ，accept 返 回 。 

异步 事件 改变 插口 状态 是 比较 常见 的 。 协 议 处 理 层 通过 设置 so_error 或 唤醒 在 插口 上 
等 待 的 所 有 进程 来 通知 插口 层 插 口 状态 的 改变 。 因 为 这 一 点 ， 插 口 层 必须 在 每 次 被 唤醒 后 检 
查 so_error， 查 看 是 否 在 进程 睡眠 期 间 有 差错 出 现 。 

4. 将 插口 同 描述 符 相 关联 
152-164 falloc 为 新 的 连接 分 配 一 个 描述 符 ; 调用 soqremaue 将 插口 从 接收 队列 中 删 
除 ， 放 到 描述 符 的 file 结 构 中 。 习 题 15.4 讨 论调 用 panic。 

5. 协议 处 理 
167-179 accept 分 配 一 个 新 的 mbuf 来 保存 外 部 地 址 ， 并 调用 soaccept 来 完成 协议 处 理 。 
在 连接 处 理 期 间 产 生 的 新 的 插口 的 分 配 和 排队 在 第 15.12 中 描述 。 如 果 进 程 提供 了 一 个 缓存 来 
接收 外 部 地 址 ，copyout 将 地 址 和 地 址 长 度 分别 从 nam 和 namelen 中 复制 给 进程 。 如 果 有 必 
要 ，copyout 还 可 能 将 地 址 截 掉 ， 如 果 进 程 提供 的 缓存 不 够 大 。 最 后 ， 释 放 mbuf， 使 能 协议 
处 理 ，accept 返 回 。 

因为 仅仅 分 配 了 一 个 mbuf 来 存放 外 部 地 址 ， 运 输 地 址 必须 能 放 入 一 个 mbuf 中 。 因 为 Unix 
域 地 址 是 文件 系统 中 的 路 径 名 (最 长 可 达 1023 个 字 节 )， 所 以 要 受到 这 个 限制 ， 但 这 对 Internet 
域 中 的 16 字 节 长 的 sockaddr_in 地 址 没有 影响 。 第 170 行 的 注释 说 明 可 以 通过 分 配 和 复制 一 
个 mbuf 链 的 方式 来 去 掉 这 个 限制 。 


soaccept EE JA 


soaccept Ecl EP DUAE RH HERE PARE, Anf 15-27. 
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uipc socket.c 
184 soaccept(so, nam) 
185 struct socket *so; 
186 struct mbuf *nam; 
187 ( 
188 int S = splnet(); 
189 int error; 
190 if ((so-»so state & SS NOFDREF) == O0) 
191 panicí("soaccept: !NOFDREF"); 
192 SO-»SO state &= ^SS, NOFDREF; 
193 error = (*so-»so,proto-»pr usrreq) (so, PRU ACCEPT, 
194 (struct mbuf *) 0, nam, (struct mbuf *) 0); 
195 Splxí(s); 
196 return (error); 
i71 uipc socket.c 


图 15-27 socaccept 国 数 


184-197 soaccept 和 确保 揪 口 与 一 个 描述 符 相 连 ， 并 发 送 PRU_ACcCEPT 请 求 给 协议 。 
pr_usrreq 返 回 后 ，nam 中 包含 外 部 插口 的 名 字 。 


15.12 sonewconn 和 soisconnected 了 函数 


从 图 15-26 中 可 以 看 出 ，accept 等 待 协议 层 处 理 进入 的 连接 请 求 ， 并 且 将 它们 放 入 so_q 
中 。 图 15-28 利 用 TCP 来 说 明 这 个 过 程 。 











等 待 进入 的 连接 请 求 


soaccept 


. 








socket () 


Soisconnected 


EE "RACK 000 | 
进入 的 TCPSYN TCP 担 手 协 议 的 最 后 一 个 ACK 


图 15-28 处 理 进入 的 TCP 连 接 
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在 图 15-28 的 左上 角 ，accept 调 用 tsleep 等 待 进 入 的 连接 。 在 左下 角 ，tcp_input 调 
用 sonewconn 为 新 的 连接 产生 一 个 插口 来 处 理 进入 的 TCP SYN( 图 28-7)。sonewconn 将 产 
生 的 插口 放 入 so_q0 排 队 ， 因 为 三 次 握手 还 没有 完成 。 

当 TCP 担 手 协 议 的 最 后 一 个 ACK 到 达 时 ，tcpP_input 调 用 soisconnected( 图 29-2) 来 更 
新 产生 的 插口 ， 并 将 它 从 so_q0 中 移 到 so_q 中 ， 唤 醒 所 有 调用 accept 等 待 进 人 的 连接 的 进程 。 

图 的 右上 和 角 说 明 我 们 在 图 15-26 中 描述 的 函数 。 当 tsleep 返 回 时 ，accept 从 so_q 中 得 
到 连接 ， 发 送 PRU_ATTACH 请 求 。 插 口 同一 个 新 的 文件 描述 符 建 立 了 联系 ，accept 也 返回 
到 调用 进程 。 

图 1$-29 显 示 了 sonewconn 图 数 。 





uipc socket2.c 
123 struct socket * 
124 sonewconn(head, connstatus) 
125 struct socket *head; 
126 int connstatus; 
127 ( 
128 struct socket *so; 
129 int SOqueue - connstatus ? 1 : 0; 
130 if (head-»so qlen + head-»so, qÜ0len > 3 * head-»so qlimit / 2) 
131 return ((struct socket *) 0); 
132 MALLOC(so, struct socket *, sizeof(*so), M SOCKET, M DONTWAIT); 
133 if (so == NULL) 
134 return ((struct socket *) 0); 
135 bzero((caddr t) so, sizeof(*so)); 
136 So-»so,.type = head-»so type; 
137 SO-»SO options = head-»so options & "SO ACCEPTCONN; 
138 SO-»SO linger = head-»so linger; 
139 SO-»S0 state = head-»so, state | SS NOFDREF; 
140 SO-»SO proto = head-»so proto; 
141 SO-»Ss0 timeo = head-»so timeo; 
142 SO-»SO pgid = head-»so pgid; 
143 (void) soreserve(so, head-»so snd.sb hiwat, head-»so rcv.sb hiwat); 
144 Soqinsque (head, so, soqueue); 
145 if ((*so-»so proto-»pr usrreq) (so, PRU ATTACH, 
146 (struct mbuf *) 0, (struct mbuf *) 0, (struct mbuf *) O)) ( 
147 (void) soqremque(so, soqueue); 
148 (void) free((caddr t) so, M SOCKET); 
149 return ((struct socket *) 0); 
150 H 
151 if (connstatus) ( 
152 Ssorwakeup (head); 
153 wakeup((caddr. t) & head-»so timeo); 
154 SO-»SO state |= connstatus; 
155 ) 
156 return (so); 
157 } 


uipc socket2.c 
图 15-29 sonewconn 函数 


123-129 ”协议 层 将 head( 指 向 正在 接收 连接 的 插口 的 指针 ) 和 connstatus( 指 示 新 连接 的 
状态 的 标志 ) 传 给 sonewconn。 对 于 TCP 而 言 ，connstatus 总 是 等 于 0。 
对 于 TP4，connstatus 总 是 等 于 SS_ISCONFIRMING。 当 一 个 进程 开始 从 村 
口上 接收 或 发 送 数 据 时 隐 式 证 实 连接 。 
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l. 限制 进入 的 连接 
130-131 当下 面 的 不 等 式 成 立时 ，sonewconn 不 再 接收 任何 连接 : 
3xso qlimit 

2 

这 个 不 等 式 为 一 直 没 有 完成 的 连接 提供 了 一 个 令 人 费解 的 因子 ， 且 该 不 等 式 确 保 
listen(fd，0) 人 允许 一 条 连接 。 有 关 这 个 不 等 式 的 详细 情况 请 参考 卷 1 的 图 18-23。 

2. 分 配 一 个 新 的 插口 
132-143 一 个 新 的 socket 结 构 被 分 配 和 初始 化 。 如 果 进 程 对 处 理 接 收 连接 状态 的 插口 调 
用 了 setsockopt， 则 新 产生 的 socket 继 承 好 几 个 插口 选项 ， 因 为 so_options、 
so_linger、so_pgid 和 sb_hiwat 的 值 被 复制 到 新 的 socket 结 构 中 。 

3. 排队 连接 
144 在 第 129 行 的 代码 中 ， 根 据 connstatus 的 值 设 置 soqueue。 如 果 soqueue 为 0 (如 ， 
TCP 连 接 )， 则 将 新 的 插口 插入 到 so_q0 中 ; 车 connstatus 等 于 非 O 值 ， 则 将 其 插入 到 so_qa 
中 (如 ，TP4 连 接 )。 

4. 协议 处 理 
145-150 ”发 送 PRU_ATTACH 请 求 ， 启 动 协议 层 对 新 的 连接 的 处 理 。 如 果 处 理 失 败 ， 则 将 插 
口 从 队列 中 删除 并 丢弃 ， 然 后 sonewconn 返 回 一 个 空 指针 。 

5. 唤醒 进程 
151-157 如 果 connstatus 等 于 非 0 值 ， 所 有 在 accept 中 睡眠 或 查询 插口 的 可 读 性 的 进程 
均 被 唤醒 。 将 connstatus 对 so_state 执 行 或 操作 。TCP 协 议 从 来 不 会 执行 这 段 代码 ， 
为 对 TCP 而 言 ，connst. tus 总 是 等 于 0。 

某 些 将 进入 的 连接 首先 插入 so_s0 队 列 中 的 协议 在 连接 建立 阶段 完成 时 调用 
soisconnected， 如 TCP。 对 于 TCP， 当 第 二 个 SYN 被 应 答 时 ， 就 出 现 这 种 情况 。 

图 15-30 显 示 了 soisconnected 的 代码 。 


so_qlen+so_q0len> 


kern[uipc_socket2.c 


78 soisconnected (so) 
79 struct socket *so; 


80 { 

81 struct socket *head = so->so_head; 

82 so->so_state &= ~(SS_ISCONNECTING | SS ISDISCONNECTING | SS ISCONFIRMING); 
83 So-»So, state |= SS, ISCONNECTED; 

84 if (head && soqremque(so, 0)) ( 

85 soqinsque (head, so, 1); 

86 sorwakeup (head) ; 

87 wakeup((caddr t) & head-»so timeo); 
88 ) else ( 

89 wakeup((caddr t) & so-»so timeo); 
90 sorwakeup (so); 

91 Sowwakeup (so); 

92 ) 

93 ) 


kern|uipc socket2.c 
图 1$-30 soisconnectedER AK 


6. 排队 未 完成 的 连接 
78-87 ”通过 修改 插口 的 状态 来 表明 连接 已 经 完成 。 当 对 进入 的 连接 调用 soisconnected 
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( 即 ， 本 地 进程 正在 调用 accept) 时 ，heag 为 非 空 。 

如 果 sogGremaque 返 回 1， 就 将 播 口 放 入 seo_q 排 队 ，sorwakeup 唤 醒 通过 调用 select 测 
试 插口 的 可 读 性 来 监控 播 口上 连接 到 达 的 进程 。 如 果 进 程 在 accept 中 因 等 待 连接 而 阻塞 ， 则 
wakeup 使 得 相应 的 tsleep 返 回 。 

7. 唤醒 等 待 新 连接 的 进程 
88-93 ”如果 head 为 空 ， 就 不 需要 调用 soqremque， 因 为 进程 用 connect 系 统 调用 初始 化 
连接 ， 且 插口 不 在 队列 中 。 如 果 head 非 空 ， 且 soqremque 返 回 0， 则 插口 已 经 在 so_q 队 列 
中 。 在 某 些 协 议 中 ， 如 TP4， 就 出 现 这 种 情况 ， 因 为 在 TP4 中 ， 连 接 完成 之 前 就 已 插入 到 
so_q 队 列 中 。 wakeup 唤 醒 所 有 阻塞 在 connect 中 的 进程 ，sorwakeup 和 sowwakeup 人 负责 
唤醒 那些 调用 select 等 待 连接 完成 的 进程 。 


15.13 connect 系 统 调用 


服务 器 进程 调用 1isten 和 accept 系 统 调用 等 待 远程 进程 初始 化 连接 。 如 果 进 程 想 自己 
初始 化 一 条 连接 ( 即 客户 端 )， 则 调用 connect。 

对 于 面向 连接 的 协议 如 TCP，connect 建 立 一 条 与 指定 的 外 部 地 址 的 连接 。 如 果 进 程 没 
有 调用 bind 来 绑 定 地 址 ， 则 内 核 选 择 并 且 隐 式 地 绑 定 一 个 地 址 到 揪 口 。 

对 于 无 连接 协议 如 UDP 或 ICMP，connect 记 录 外 部 地 址 ， 以 便 发 送 数据 报时 使 用 。 任 何 
以 前 的 外 部 地 址 均 被 新 的 地 址 所 代替 。 

图 15-31 显 示 了 UDP 或 TCP 调 用 connect 时 涉及 到 的 函数 。 










_ : PRU, CONNECT 请 求 
PRU CONNECT 请 求 请 求 


TCP 连 接 建 立 
图 15-31 connect 处 理 过 程 
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图 的 左边 说 明 connect 如 何 处 理 无 连接 协议 ， 如 UDP。 在 这 种 情况 下 ， 协 议 层 调 用 
soisconnected 后 connect 系 统 调用 立即 返回 。 

图 的 右边 说 明 connect 如 何 处 理 面向 连接 的 协议 ， 如 TCP。 在 这 种 情况 下 ， 协 议 层 开始 
建立 连接 ， 调 用 soisconnecting 指 示 连 接 将 在 某 个 时 候 完成 。 如 果 插 口 是 非 阻塞 的 ， 
soconnect 调 用 tsleep 等 待 连接 完成 。 对 于 TCP， 当 三 次 握手 完成 时 ， 协 议 层 调用 
soisconnected 将 插口 标识 为 已 连接 ， 然 后 调用 wakeup 唤 醒 等 待 的 进程 ， 从 而 完成 
connect 系 统 调用 。 

图 15-32 列 出 了 connect 系 统 调用 的 代码 。 


180 struct connect_args { 





uipc_syscalls.c 


181 int S; 

182 caddr t name; 
183 int namelen; 
184 ); 


185 connect (p, uap, retval) 
186 struct proc *p; 
187 struct connect args *uap; 


188 int *retval; 

189 ( 

190 struct file *fp; 

191 struct socket *so; 

192 struct mbuf *nam; 

193 int error, S; 

194 if (error = getsock(p-»p fd, uap-»s, &fp)) 

195 return (error); 

196 so = (struct socket *) fp-»f data; 

197 if ((so-»so,state & SS,NBIO) && (so-»so state & SS ISCONNECTING)) 
198 return (EALREADY); 

199 if (error = sockargs(&nam, uap-»name, uap-»namelen, MT SONAME)) 
200 return (error); 

201 error = soconnectí(so, nam); 

202 if (error) 

203 goto bad; 

204 if ((so-»so state & SS NBIO) && (so-»so state & SS ISCONNECTING)) { 
205 m freem(nam); 

206 return (EINPROGRESS); 

207 ) 

208 S = Splnet(); 

209 while ((so-»so state & SS ISCONNECTING) && So-»so error == 0) 
210 if (error = tsleep((caddr t) & so-»so timeo, PSOCK | PCATCH, 
211 netcon, 0)) 

212 break; 

213 if (error == 0) ( 

214 error = SOo-»sSo error; 

215 SOo-»so error = 0; 

216 : 

217 Splx(s); 

218 bad: 

219 SO-»SO State &- ^SS ISCONNECTING; 

220 m freem(nam); 

221 if (error == ERESTART) 

222 error - EINTR; 

223 return (error); 

224 } 


uipc. syscalls.c 





图 15-32 connect HH 
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180-188 connect 的 三 个 参数 (在 connect_args 结 构 中 ) 是 : s 为 插口 描述 符 ' name 是 一 
个 指针 ， 指 向 存放 外 部 地 址 的 缓存 ; namelen 为 缓存 的 长 度 。 
189-200 getsock 获 取 插 口 描述 符 对 应 的 fiie 结 构 。 可 能 已 有 连接 请 求 在 非 阻 塞 的 插口 
上 ， 若 出 现 这 种 情况 ， 则 返回 EALREADY。 函 数 sockargs 将 外 部 地 址 从 进程 复制 到 内 核 。 
1. 开始 连接 处 理 
201-208 连接 是 从 调用 soconnect 开 始 的 。 如 果 soconnect 报 告 差错 出 现 ，connect 跳 
转 到 bad。 如 果 soconnect 返 回 时 连接 还 没有 完成 且 使 能 了 非 阻塞 的 IO， 则 立即 返回 
EINPROGRESS 以 免 等 待 连接 完成 。 因 为 通常 情况 下 ， 建 立 连 接 要 涉及 同 远程 系统 交换 几 个 
分 组 ， 因 而 这 个 过 程 可 能 需要 一 些 时 间 才 能 完成 。 如 果 连 接 没 完成 ， 则 下 次 对 connect 调 用 
就 返回 EALREADY。 当 连接 完成 时 ，soconnect 返 回 EISCONN。 
2. 等 待 连接 建立 
208-217 while 循环 直 到 连接 已 建立 或 出 现 差错 时 才 退 出 。splnet 防 止 connect 在 测试 
插口 状态 和 调用 tsleep 之 间 错 过 wakeup。 循 环 完 成 后 ，error 包 含 0、tsleep 中 的 差错 代 
码 或 插口 中 的 差错 代码 。 
218-224 ”清除 SS_ISCONNECTING 标 志 ， 因 为 连接 已 完成 或 连接 请 求 已 失败 。 释 放 存 储 外 
部 地 址 的 mbuf， 返 回 差错 代码 。 


15.13.1 soconnectik 


soconnect 函 数 确保 插口 处 于 正确 的 连接 状态 。 如 果 插 口 没有 连接 或 连接 没有 被 挂 起 ， 
则 连接 请 求 总 是 正确 的 。 如 果 插 口 已 经 连接 或 连接 正 等 待 处 理 ， 则 新 的 连接 请 求 将 被 面向 连 
接 的 协议 (如 TCP) 拒 绝 。 对 于 无 连接 协议 ， 如 UDP， 多 个 连接 是 允许 的 ， 但 是 每 一 个 新 的 请 求 


uipc_socket.c 
198 soconnect(so, nam) 
199 struct socket *so; 
200 struct mbuf *nam; 
201 { 
202 int S; 
203 int error; 
204 if (so-»so options & SO ACCEPTCONN) 
205 return (EOPNOTSUPP); 
206 S = splnet(); 
207 /* 
208 * If protocol is connection-based, can only connect once. 
209 * Otherwise, if connected, try to disconnect first. 
210 * This allows user to disconnect by connecting to, e.g., 
211 * a null address. 
212 */ 
213 if (so-»so state & (SS, ISCONNECTED | SS ISCONNECTING) && 
214 ((so-»so proto-»pr flags & PR,CONNREQUIRED) |l! 
215 (error = sodisconnect (so)))) 
216 error - EISCONN; 
217 else . 
218 error = (*so-»so proto-»pr usrreq) (so, PRU, CONNECT, 
219 (struct mbuf *) 0, nam, (struct mbuf *) 0); 
220 spix(s); 
221 return (error); 
2 uipc socket.c 


15-33 soconnect 国 数 
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中 的 外 部 地 址 会 取代 原来 的 外 部 地 址 。 

图 1$-33 列 出 了 soconnect 国 数 的 代码 。 
198-222 如果 播 口 被 标识 准备 接收 连接 ， 则 soconnect 返 回 RPOPNOTSUPP， 因 为 如 果 已 
经 对 插口 调用 了 1isten， 则 进程 不 能 再 初始 化 连接 。 如 果 协 议 是 面向 连接 的 ， 且 一 条 连接 已 
经 被 初始 化 ， 则 返回 EISCONN。 对 于 无 连接 协议 ， 任 何 已 有 的 同 外 部 地 址 的 联系 都 被 
sodisconnect 切 断 。 


PRU_CONNECT 请 求 启 动 相应 的 协议 处 理 来 建立 连接 或 关联 。 
15.13.2 切断 无 连接 插口 和 外 部 地 址 的 关联 


对 于 无 连接 协议 ， 可 以 通过 调用 connect， 并 传人 一 个 不 正确 的 name 参 数 ， 如 指向 内 容 
为 全 0 的 结构 指针 或 大 小 不 对 的 结构 ， 来 丢弃 同 插口 相关 联 的 外 部 地 址 。sodisconnect 删 
除 同 插口 相关 联 的 外 部 地 址 ，PRU_CONNECT 返 回 差 错 代 码 ， 如 EAFNOSUPPORT 或 
EADDRNOTAVAIL，、 留 下 没有 外 部 地 址 的 插口 。 这 种 方式 虽然 有 点 隆 涩 ， 但 却 是 一 种 比较 有 
用 的 断 连 方式 ， 在 无 连接 插口 和 外 部 地 址 之 间断 连 ， 而 不 是 替换 。 


15.14. shutdown 系统 调用 


shutdown 系 统 调用 关闭 连接 的 读 通道 、 写 通道 或 读 写 通道 ， 如 图 15-34 所 示 。 对 于 读 通 
道 ，shutdown 丢 弃 所 有 进程 还 没有 读 走 的 数据 以 及 调用 shutdown 之 后 到 达 的 数据 。 对 于 
写 通道 ，shutdown 使 协议 作 相 应 的 处 理 。 对 于 TCP， 所 有 剩余 的 数据 将 被 发 送 ， 发 送 完 成 
后 发 送 FIN。 这 就 是 TCP 的 半 关 闭 特点 (参考 卷 1 的 第 18.5 市 )。 

为 了 删除 播 口 和 释放 描述 符 ， 必 须 调 用 close。 可 以 在 没有 调用 shutaown 的 情况 下 ， 
直接 调用 close。 同 所 有 描述 符 一 样 ， 当 进程 结束 时 ， 内 核 将 调用 close， 关 闭 所 有 还 没有 
被 关闭 的 插口 。 


uipc_syscalls.c 
550 struct shutdown_args { 


551 int 8; 
552 int how; 
553 ); : 


554 shutdown(p, uap, retval) 
555 struct proc *p; 
556 struct shutdown args *uap; 


557 int *retval; 

558 ( 

559 struct file *fp; 

560 int error; 

561 if (error = getsock(p-»p fd, uap-»s, &fp)) 

562 return (error); 

563 return (soshutdown((struct socket *) fp-»f data, uap-»how)]; 
564 ) 


uipc syscalls.c 





图 15-34 shutdown 系统 调用 


550-557 在 shutdown_args 结 构 中 ，s 为 插口 描述 符 ， how 指 明 关 闭 连 接 的 方式 。 图 15- 
35 列 出 了 how 和 how++( 在 图 15-36 中 用 到 的 ) 的 期 望 值 。 
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0 
1 FWRITE 
2 





FREAD 关闭 连接 的 读 通道 
关闭 连接 的 写 通 道 
关闭 连接 的 读 写 通道 






FREAD!FWRITE 





图 1S$-3$ _ shutdown 系 统 调用 选项 
注意 ， 在 how 和 常数 FREAD 和 FWRITE 之 间 有 一 种 隐 含 的 数值 关系 。 


558-564 shutdown 是 函数 soshutdown 的 包装 函数 (wrapper function)。 由 getsock 返 回 
与 描述 符 相关 联 的 插口 ， 调 用 soshutdown， 并 返回 其 值 。 i 


soshutdown 和 sorflush 函 数 


关闭 连接 的 读 通 道 是 由 插口 层 调用 sorf1lush 处 理 的 ， 写 通道 的 关闭 是 由 协议 层 的 
PRU_SHUTDOWN 请 求 处 理 的 。soshutdown 国 数 如 图 15$-36 所 示 。 


uipc socket.c 
720 soshutdown(so, how) 
721 struct socket *so; 
722 int how; 
723 ( 
724 struct protosw *pr = so--»so proto; 
725 how++; 
726 if (how & FREAD) 
727 sorflush (so); 
728 if (how & FWRITE) 
729 return ((*pr->pr_usrreq) (so, PRU_SHUTDOWN, 
730 (struct mbuf *) 0, (struct mbuf *) 0, (struct mbuf *) 0)); 
731 return (0); 
732 ) 
uipc socket.c 


图 15-36 soshutdown Á% 
720-732 如果 是 关闭 插口 的 读 通道 ， 则 sorflush 丢 弃 插 口 接收 缓存 中 的 数据 ， 禁 止 读 连 
接 (如 图 1$-37 所 示 )。 如 果 是 关闭 插口 的 写 通道 ， 则 给 协议 发 送 PRU_SHUTDOWN 请 求 。 
733-747 进程 等 待 给 接收 缓存 加 锁 。 因 为 SB_NOINTR 被 设置 ， 所 以 当中 断 出 现时 ， 
sblock 并 不 返回 。 在 修改 插口 状态 时 ，splimp 阻 塞 网 络 中 断 和 协议 处 理 ， 因 为 协议 层 在 接 
收 到 进入 的 分 组 时 可 能 要 访问 接收 缓存 。 
socantrcvmore 标 识 插口 拒绝 接收 进入 的 分 组 。 将 sockbuf 结 构 保 存在 asb 中 ， 当 
sp1x 恢 复 中 断后 ， 要 使 用 asb。 调 用 bzero 清 除 原始 的 sockbuf 结 构 ， 使 得 接收 队列 为 空 。 
释放 控制 mbuf 
748-751 当 shutdown 被 调用 时 ， 存 储 在 接收 队列 中 的 控制 信息 可 能 引用 了 一 些 内 核资 源 。 
通过 sockbuf 结 构 的 副本 中 的 sb_mb 仍 然 可 以 访问 mbuf 链 。 
如 果 协 议 支持 访问 权限 ， 且 注册 了 一 个 Gom_dispose 函 数 ， 则 调用 该 函数 来 释放 这 些 资 源 。 
在 Unix 域 中 ， 用 控制 报 文 在 进程 间 传 递 描述 符 是 可 能 的 。 这 些 报 文 包含 一 些 引 
用 计数 的 数据 结构 的 指针 。dom_dispose 涵 数 负 责 去 掉 这 些 引 用 ， 如 果 ' 必 要 ， 还 释 
放 相 关 的 数据 丝 存 以 避免 产生 一 些 未 引用 的 结构 和 时 致 内 存 沁 洞 。 有 关 在 Unix 域 内 
传递 文件 描述 符 的 细节 请 参考 [Stevens 1990] 和 [Leffler et al. 1989]。 
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733 sorflush(so) uipc socket.c 
734 struct socket *so; 
735 { 
736 struct sockbuf *sb = &so-»Sso rcv; 
737 struct protosw *pr = so->so_proto; 
738 int S; 
739 struct sockbuf asb; 
740 sb->sb_flags |- SB_NOINTR; 
741 (void) sblock(sb, M_WAITOK); 
742 S = splimp{); 
743 socantrcvmore(so); 
744 Sbunlock(sb); 
745 asb = *sb; 
746 bzero((caddr,.t) sb, sizeof(*sb)); 
747 spix(s): 
748 if (pr-»pr flags & PR RIGHTS && pr-»pr domain-»dom dispose) 
749 (*pr-»pr domain-»dom dispose) (asb.sb mb); 
750 sbrelease(&asb); 
751 ) 
uipc, socket.c 


图 15-37 sorflushHA 


当 sbrelease 释 放 接 收 队列 中 的 所 有 mbuf 时 ， 丢 弃 所 有 调用 shutdown 时 还 没有 被 处 理 
的 数据 。 

注意 ， 连 接 的 读 通 道 的 关闭 完全 由 插口 层 来 处 理 (习题 15.6)， 连 接 的 写 通 道 的 关闭 通过 发 
送 PRU_SHUTDOWN 请 求 交 由 协议 处 理 。TCP 协 议 收 到 PRU_SHUTDOWN 请 求 后 ， 发 送 所 有 排队 
的 数据 ， 然 后 发 送 一 个 FIN 来 关闭 TCP 连 接 的 写 通道 。 


15.15 _ close 系统 调用 


close 系 统 调用 能 用 来 关闭 各 类 描述 符 。 当 fd 是 引用 对 象 的 最 后 的 描述 符 时 ， 与 对 象 有 
XRyclosetfd S RI: 


error = (*fp-»f ops-»fo close) (fp,p): 


如 图 15-13 所 示 ， 播 口 的 fbp->f_ops->fo_close 是 soo_close 国 数 。 
15.15.1 soo_close 函 数 


soo_close 国 数 是 soclose 国 数 的 封装 器 ， 如 图 15-38 所 示 。 





. sys, socket.c 
152 soo close(fp, p) 
153 struct file *fp; 
154 struct proc *p; 
155 ( 
156 int error - 0; 
157 if (fp-»f data) 
158 error = soclose((struct socket *) fp-»f data); 
159 fp-»f data = 0; 
160 return (error); 
11} MM — — sys. socket.c 


图 1$-38 soo closer 
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152-161 如 果 socket 结 构 与 ile 相 关联 ， 则 调用 soclose， 清 除 E_daata， 返 回 已 出 现 


15.15.2 socloseidi) 
soclose 函 数 取消 插口 上 所 有 未 完成 的 连接 ( 即 ， 还 没有 完全 被 进程 接受 的 连接 )， 等 待 


数据 被 传输 到 外 部 系统 ， 释 放 不 需要 的 数据 结构 。 
soclose 国 数 的 代码 如 图 15$-39 所 示 。 


129 soclose(so) uipc socket.c 
130 struct socket *so; 

131 ( 

132 int S = splnet(); /* conservative */ 

133 int error - 0; ， 

134 if (so-»so options & SO ACCEPTCONN) ( 

135 while (so-»so, q0) 

136 (void) soabort(so-»so.q0); 

137 while (so-»so qd) 

138 (void) soabort(so-»so q); 

139 J 

140 if (so-»so pcb -- 0) 

141 goto discard; 

142 if (so-»so state & SS ISCONNECTED) ( 

143 if ((so-»so state & SS ISDISCONNECTING) -- 0) ( 

144 error = sodisconnect (so); 

145 if (error) 

146 goto drop; 

147 } 

148 if (so-»so options & SO LINGER) ( 

149 if ((so-»so state & SS ISDISCONNECTING) && 

150 (so--so state & SS NBIO)) 

151 goto drop; 

152 while (so-»so state & SS ISCONNECTED) 

153 if (error = tsleep((caddr t) & so-»so timeo, 
154 PSOCK | PCATCH, netcls, so-»so linger)) 
155 break; 

156 } 

157 } 

158 drop: 

159 if (so-»so pcb) ( 

160 int . error2 - 

161 (*so-»so proto-»pr, usrreq) (so, PRU DETACH, 

162 (struct mbuf *) 0, (struct mbuf *) 0, (struct mbuf *) 0); 
163 if (error == O0) 

164 error - error2; 

165 } 

166 discard: 

167 if (so-»so state & SS NOFDREF) 

168 panic("soclose: NOFDREF"); 

169 SO-»SO State |- SS, NOFDREF; 

170 sofree(so); 

171 Splx(s); 

172 return (error); 

173 ) uipc socket.c 





图 15-39 soclose 国 数 
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1. 丢弃 未 完成 的 连接 
129-141 如 果 插 口 正 在 接收 连接 ，soclose 遍 历 两 个 连接 队列 ， 并 且 调 用 soabort 取 消 每 
一 个 挂 起 的 连接 。 如 果 协 议 控 制 块 为 空 ， 则 协议 已 同 插 口 分 离 ，soclose 跳 转 到 discard 进 
行 退出 处 理 。 
soabort 发 送 PRU_ABORT 请 求 给 协议 ， 并 返回 结果 。 本 书 中 没有 介绍 
soabort 的 代码 。 图 23-38 和 图 30-7 讨 论 了 UDP 和 TCP 如 何 处 理 PRU_ABORT 请 求 。 
2. 断 开 已 建立 的 连接 或 关联 
142-157 ”如 果 插 口 没有 同 任何 外 部 地 址 相连 接 ， 则 跳 转 到 drop 处 继续 执行 。 否 则 ， 必 须 断 
开 插 口 与 对 等 地 址 之 间 的 连接 。 如 果断 连 没 有 开始 ， 则 sodisconnect 启 动 断 连 进程 。 如 果 
设置 了 so_LINGER 插 口 选项 ，soclose 可 能 要 等 到 断 连 完成 后 才 返 回 。 对 于 一 个 非 阻塞 的 播 
口 ， 从 来 不 需要 等 待 断 连 完成 ， 所 以 在 这 种 情况 下 ，soclose 立 即 跳 转 到 drop。 否 则 ， 连 接 
终止 正在 进行 且 SO_LINGER 选 项 指示 soc1lose 必 须 等 待 一 段 时 间 才 能 完成 操作 。 直 到 出 现下 
列 情况 时 while 才 退出 : 断 连 完成 ; EEk Eso linger); 或 进程 收 到 了 一 个 信号 。 
如 果 滞 留 时 间 被 设 为 0，tsleep 仅 当 断 连 完成 (也 许 因 为 一 个 差错 ) 或 收 到 一 个 信号 
时 才 返 回 。 
3. 释放 数据 结构 
158-173 ”如 果 插 口 仍然 同 协议 相连 ， 则 发 送 PRU_DETACH 请 求 断 开 插 口 与 协议 的 联系 。 最 
后 ， 插 口 被 标记 为 同 任何 描述 符 没 有 关联 ， 这 意味 着 可 以 调用 sofree 释 放 插 口 。 
sofree 国 数 代码 如 图 1S$-40 所 示 。 








uipc socket.c ` 
110 sofree(so) 
111 struct socket *so; 
112 ( 
113 if (so-»so pcb || (so-»so state & SS NOFDREF) == ) 
114 return; 
115 if (so-»so head) ( 
116 if (!soqremque(so, 0) && !soqremque(so, 1)) 
117 panic("sofree dq"); 
118 So-»so head = 0; 
119 H 
120 sbrelease(&so-»so, snd) ; 
121 sorflush(so); 
122 FREE(so, M SOCKET); 
123 ) 
uipc socket.c 


图 15-40 sofreet 


4. 如 果 揪 口 仍 在 用 则 返回 
110-114 如 果 仍 然 有 协议 同 揪 口 相连 ， 或 如 果 播 口 仍 然 同 描述 符 相 连 ， 则 sofree 立 即 返 
回 。 

5. 从 连接 队列 中 删除 插口 
115-119 ”如 果 揪 口 仍 在 连接 队列 上 (so_nead 非 空 )， 则 插口 的 队列 应 该 为 空 。 如 果 不 空 ， 
则 插口 代码 和 内 核 panic 中 有 差错 。 如 果 队 列 为 空 ， 清 除 so_head。 

6. 释放 发 送 和 接收 队列 中 的 给 存 
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120-123 sorelease 释 放 发 送 队 列 中 的 所 有 缓存 , sorf1lush 释 放 接收 队列 中 的 所 有 缓存 。 
最 后 ， 释 放 插口 本 身 。 


15.16 


小 结 


本 章 中 我 们 讨论 了 所 有 与 网 络 操作 有 关 的 系统 调用 。 描 述 了 系统 调用 机 制 ， 并 且 跟 踪 系 
统 调用 直到 它们 通过 pr_usrreq 国 数 进入 协议 处 理 层 。 

在 讨论 插口 层 时 ， 我 们 避免 涉及 地 址 格式 、 协 议 语义 或 协议 实现 等 问题 。 在 接 下 来 的 章 
节 中 ， 我 们 将 通过 协议 处 理 层 中 的 Internet 协 议 的 实现 将 链 路 层 处 理 和 插口 层 处 理 联 系 在 一 起 。 


习题 
15.1 
15.2 


15.3 


15.4 
15.5 
15.6 


一 个 没有 超级 用 户 权限 的 进程 怎样 才能 获取 对 超级 用 户 进程 产生 的 插口 的 访问 权 ? 
一 个 进程 怎样 才能 判断 它 提供 给 accept 的 sockadGdr 缓 存 是 不 是 太 小 以 至 不 能 存 
放 调 用 返回 的 外 部 地 址 ? 
IPv6 的 播 口 有 一 个 特点 : 使 accept 和 recvfrom 返 回 一 个 128 bit 的 IPv6 地 址 的 数 
组 作为 源 路 由 ， 而 不 是 仅 返 回 一 个 对 等 地 址 。 因 为 数组 不 能 存放 在 一 个 mbuf 中 ， 所 
以 修改 accept 和 recvfrom， 使 得 它们 能 够 处 理 协 议 层 来 的 mbuf 链 而 不 是 仅仅 一 
个 mbuf。 如 果 协 议 在 mbuf 铀 中 返回 一 个 数组 而 不 是 一 个 mpuf 链 ， 已 有 的 代码 仍然 
能 正常 工作 吗 ? 

为 什么 在 图 15-26 中 当 soqremque 返 回 一 个 空 指针 时 要 调用 panic? 

为 什么 sorflush 要 复制 接收 缓存 ? 

在 sorflush 将 插口 的 接收 缓存 清 0 后 ， 如 果 还 有 数据 到 达 会 出 现 什么 现象 ?在 做 这 
个 习题 之 前 请 阅读 第 16 章 的 内 容 。 


第 16 章 $ O IO 


16.1 引言 


本 章 讨论 有 关 从 网 络 连 接 上 读 写 数据 的 系统 调用 ， 分 三 部 分 介绍 。 

第 一 部 分 介绍 四 个 用 来 发 送 数据 的 系统 调用 : write、writev、sendto 和 sendmsg。 第 
二 部 分 介绍 四 个 用 来 接收 数据 的 系统 调用 : read、readv、recvfrom 和 recvmsg。 第 三 部 分 
介绍 select 系 统 调用 ，select 调 用 的 作用 是 监控 通用 描述 符 和 特殊 描述 符 ( 播 口 ) 的 状态 。 

插口 层 的 核心 是 两 个 函数 : sosend 和 soreceive。 这 两 个 函数 负责 处 理 所 有 插口 层 和 
协议 层 之 间 的 VO 操作 。 在 后 续 的 章节 中 我 们 将 看 到 ， 因 为 这 两 个 函数 要 处 理 插口 层 和 各 种 类 
型 的 协议 之 间 的 VO 操作 ， 使 得 这 两 个 函数 特别 长 和 复杂 。 


16.2 代码 介绍 
图 16-1 中 列 出 了 本 章 后 续 章 节 要 用 到 的 三 个 头 文件 和 四 个 C 源 文件 。 


sys/socket.h 插口 API 中 的 结构 和 宏 定 义 
sys/socketvar.h socket 结 构 和 宏 定义 


sys/uio.h uio 结 构 定义 
kern/uipc_syscalls.c socket 系 统 调 用 
kern/uipc_socket.c 揪 口 层 处 理 
kern/sys, generic.c selecti £X VH 
kern/sys, socket.c select 对 揪 口 的 处 理 


图 16-1 本 章 涉及 的 头 文件 和 C 源 文件 





图 16-2 列 出 了 三 个 全 局 变量 。 前 两 个 变量 由 select 系 统 调用 使 用 ， 第 三 个 变量 控制 分 配 
给 插口 的 存储 器 大 小 。 


select 调 用 的 等 待 通道 


避免 select 调 用 中 出 现 竟 争 的 标志 
插口 发 送 或 接收 缓存 的 最 大 字 节 数 


图 16-2 本 章 涉及 的 全 局 变量 





16.3 插口 缓存 
从 第 15.3 节 我 们 已 经 知道 ， 每 一 个 插口 都 有 一 个 发 送 缓 存 和 一 个 接收 缓存 。 缓 存 的 类 型 为 
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sockbuf。 图 16-3 中 列 出 了 sockbuf 结 构 的 定义 (重复 图 15-5)。 





socketvar.h 
72 struct sockbuf { 
73 u.long sb cc; /* actual chars in buffer */ 
74 u.long sb hiwat; /* max actual char count */ 
75 u long sb mbcnt; /* chars of mbufs used */ 
76 u long sb, mbmax; /* max chars of mbufs to use */ 
77 long Sb lowat; /* low water mark */ 
78 Struct mbuf *sb mb; /* the mbuf chain */ 
79 Struct selinfo sb sel; /* process selecting read/write */ 
80 short sb flags; /* Figure 16.5 */ 
81 short sb timeo; /* timeout for read/write */ 
82 ) so rcv, so snd; 
socketvar.h 


图 16-3 sockbuf 结 构 


72-78 每 一 个 缓存 均 包 含 控制 信息 和 指向 存储 数据 的 mbuf 链 的 指针 。sb_mb 指 向 mbuf 链 的 
第 一 个 mbuf，sb_cc 的 值 等 于 存储 在 mbuf 链 中 的 数据 字 节 数 。sb_hiwat 和 skb_lowat 用 来 
调整 插口 的 流 控 算 法 。sb_mbcnt 等 于 分 配给 缓存 中 的 所 有 mbuf 的 存储 器 数量 。 


在 前 面 的 章节 中 提 到 过 每 一 个 mbuf 可 存储 0~2048 个 字 节 的 数据 (如 果 使 用 了 外 部 篮 ) 。 


sb_mbmax 是 分 配给 插口 mbuf 缓 存 的 存储 器 数量 的 上 限 。 默 认 的 上 限 在 socket 系 统 调 用 中 发 送 
PRU_ATTACH 请 求 时 由 协议 设置 。 只 要 内 核 要 求 的 每 个 播 口 缓存 的 大 小 不 超过 262,144 个 字 节 
的 限制 (sb_max)， 进 程 就 可 以 修改 缓存 的 上 限 和 下 限 。 流 控 算法 将 在 16.4 节 和 16.8 节 中 讨论 。 
图 16-4 显 示 了 Internet 协 议 的 默认 设置 。 
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图 16-4 Internet 协 议 的 默认 的 播 口 缓存 限制 


因为 每 一 个 进入 的 UDP 报 文 的 源 地 址 同 数据 一 起 排队 ， 所 以 UDP 协议 的 sb_hiwat 的 默 


认 值 设置 为 能 容纳 40 个 IK 字 节 长 的 数据 报 和 相应 的 sockaddr_in 结 构 ( 每 个 16 字 节 )。 


79 
80 


sb_sel 是 一 个 用 来 实现 select 系 统 调用 的 selinfo 结 构 (16.13 节 )。 
图 16-5 列 出 了 sb_flags 的 所 有 可 能 的 值 。 


SB LOCK 一 个 进程 已 经 锁定 了 播 口 缓存 
SB WANT 一 个 进程 正在 等 待 给 播 中 缓存 加 锁 
SB WAIT | 一 个 进 称 正在 等 待 接收 数据 或 发 送 数 据 所 需 的 缓存 


SB SEL 一 个 或 多 个 进程 正在 选择 这 个 缓存 
SB ASYNC Apk A £R fr PE PIOTS S 
SB NOINTR iH c AS BUB BEER 


SB NOTIFY | (SB WAITISB AELISB ASYNC) 
一 个 进程 正在 等 待 缓存 的 变化 ， 如 果 缓 存 发 生 任 何 改变 ， 用 wakeup 通 知 该 进程 


图 16-5 sb_flags 的 值 
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81-82 sb timeoRbEkBE I —^4- ETE CE i 5 USUH rp E PR 2E BOSE IR], Lr SERE Bh A (tick). 
默认 值 为 0， 表 示 进 程 无 限期 的 等 待 。SO_SNDTIMEO 和 SO_RCVTIMEO 揪 口 选项 可 以 改变 或 
读 取 sb_timeo 的 值 。 


插口 宏和 函数 
有 许多 宏和 函数 用 来 管理 插口 的 发 送 和 接收 缓存 。 图 16-6 中 列 出 了 与 缓存 加 锁 和 同步 有 


sblock 申请 给 sb 加 锁 ， 如 果 wf 等 十 M_WAITOK， 则 进程 睡眠 等 待 加 锁 ; 否则 ， 如 果 不 能 立即 给 


缓存 加 锁 ， 就 返回 EwOULDBLOCK。 如 果 进 程 睡 卢 被 一 个 信号 中 断 ， 则 返 IEINTR 或 
ERESTART; TNA nro 


int sblock(struct sockbuf *sb, int wf); 
sbunlock 释放 加 在 sb 上 的 锁 。 所 有 等 待 给 sb 加 锁 的 进程 被 唤醒 
void sbunlock(struct sockbuf *sb); 


sbwait 调用 tsleep 等 待 b 上 的 协议 动作 。 返 回 tsleep 返 回 的 结果 
int sbwait(struct sockbuf *sb); 


sowakeup 通知 插口 有 协议 动作 出 现 。 唤醒 所 有 匹配 的 调用 sibwait 的 进程 或 在 sb 上 调用 tsleep 的 
进程 
void sowakeup(struct socket *sb, struct sockbuf *sb); 

sorwakeup 唤醒 等 待 b 上 的 读 事件 的 进程 ， 如 果 进 程 请 求 了 W/O 事件 的 异步 通知 ， 则 还 应 给 该 进程 发 
送 SIGIO 信 和 号 
void sorwakeup(struct socket *sb); 


sowwakeup 唤醒 等 待 *%8 上 的 写 事件 的 进程 ， 如 果 进 程 请 求 了 LO 事件 的 异步 通知 ， 则 还 应 给 该 进程 发 
送 SIGIO 信 号 
void sowwakeup(struct socket *sb); 


图 16-6 与 缓存 加 锁 和 同步 有 关 的 宏和 函数 


图 16-7 显 示 了 设置 插口 资源 限制 、 往 缓存 中 写 数据 和 从 缓存 中 删除 数据 的 宏和 函数 。 在 
该 表 中 ，m、m0、n 和 control 都 是 指向 mbuf 链 的 指针 。sb 指 向 插口 的 发 送 或 接收 缓存 。 


sbspace sb 中 可 用 的 空间 ( 字 节 数 ) : 
miní(sb hiwat - sb cc), (sb mbmax - sb, mbcont) 
long sbspace(struct sockbuf *sb); 


sballoc 将 m 加 到 sb 中 ， 同 时 修改 sb 中 的 sb_cc 和 sb_mbcnt 
void sballoc(struct sockbuf *sb, struct mbuf *m); 





sbfree 从 sb 中 删除 m， 同时 修改 sb 中 的 sb_cc 和 sb_mbcnt 
| int sbfree(struct sockbuf *sb, struct mbuf *m); 
sbappend 将 m 中 的 mbuf 加 到 sb 的 最 后 面 
| Papera | int sbappend (struct sockbuf *sb, struct mbuf *m); 
sbappendrecord 将 m0 中 的 记录 加 到 sb 的 最 后 面 。 调 用 sbcompress 
oe int gbappendrecord(struct sockbuf *sb, struct mbuf *m0); 


图 16-7 与 插口 缓存 分 配 与 操作 有 关 的 宏和 函数 
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sbappendaddr TYtasal) Bh blood A -- 7 mbuf. XYEbhBE. controURbmOiE E JC -— 7 mbuffi&, Již 
链 放 在 sb 的 最 后 面 
int abappendaddr(struct *sb, struct sockaddr *asa, 
struct mbuf *m0, struct mbuf *control); 
sbappendcontrol 将 controt 和 m0 连接 成 一 个 mbuf 链 ， 并 将 该 链 放 在 sb 的 最 后 面 
int abappendcontrol(struct *sb, struct mbuf *m0, 
struct mbuf *control); 
sbinsertoob 将 mO 揪 在 没有 带 外 数据 的 % 的 第 一 个 记录 的 前 面 
poem | int abinsertoob(struct sockbuf *sb, struct mbuf *rm0); 


sbcompress 将 m 合 并 到 n 中 并 压缩 没 用 的 空间 
void abcompress(struct sockbuf *sb, struct mbuf *m, 
struct mbuf *n); 


sbdrop BUR sb09 Alen Net 
void sbdrop(struct sockbuf *sb, int len); 

sbdroprecord 删除 sb 的 第 一 个 记录 ， 将 下 一 个 记录 移 作 第 一 个 记录 
Ce void sbdroprecord(struct sockbuf *sb); 

sbrelease 调用 sbflush 释 放 sb 中 所 有 的 mbuf。 tsb- hiwatfllsb mbmaxiá0 
pee | void sbrelease(struct sockbuf *sb) 

sbflush 释放 sb 中 的 所 有 mbuf 
pem | void sbflush(struct sockbuf *sb); 


soreserve 设置 插口 缓存 高 、 低 水 位 标记 (high-water and low-water mark) 
十 发 送 缓存 ， 调 用 sbreserve 并 传人 参数 sndcc。 对 十 接收 缓存 ， " 
sbreserve 并 传人 参数 rcvcc。 将 发 送 缓存 和 接收 缓存 的 sb_1owat 初 始 化 成 默 
认 值 (图 16-4)。 如 果 超 过 系统 限制 ， 则 返回 ENOBUFS 


int soreserve(struct socket *so, int sndcc, int rcvcc); 


sbreserve 将 sb 的 高 水 位 标记 设置 成 cc。 同 时 将 低 水 位 标记 降 到 cc。 本 函数 不 分 配 存储 器 
int sbreserve(struct sockbuf *sb, int cc); 


图 16-7 ( 续 ) 





16.4 write、writev、sendto 和 sendmsg 系 统 调 用 


我 们 将 write、writev、sendto 和 sendmsg 四 个 系统 调用 统称 为 写 系统 调 用 ， 它 们 的 
作用 是 往 网 络 连接 上 发 送 数据 。 相 对 于 最 一 般 的 调用 sendmsg 而 言 ， 前 三 个 系统 调用 是 比较 
简单 的 接口 。 

所 有 的 写 系 统 调用 都 要 直接 或 间接 地 调用 sosend。sosend 的 功能 是 将 进程 来 的 数据 复 
制 到 内 核 ， 并 将 数据 传递 给 与 插口 相关 的 协议 。 图 16-8 给 出 了 sosend 的 工作 流程 。 

在 下 面 的 章节 中 ， 我 们 将 讨论 图 16-8 中 带 阴影 的 函数 。 其 余 的 四 个 系统 调用 和 
soo write 留 给 读者 自己 去 了 解 。 

图 16-9 说 明了 这 四 个 系统 调用 和 一 个 相关 的 库 函 数 (send) 的 特点 。 

在 Net3 中 ，send 被 实现 成 一 个 调用 sendto 的 库 函 数 。 为 了 与 以 前 编译 的 程序 

二 进 制 养 容 ， 内 核 将 昌 的 send 调 用 映射 成 函数 osend， 该 函数 不 在 本 书 中 讨论 。 

从 图 16-9 的 第 二 栏 中 可 以 看 出 ，write 和 writev 系 统 调用 适用 于 任何 描述 符 ， 而 其 他 的 
系统 调用 只 适用 于 插口 描述 符 。 
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TCP . . TP4 
通过 Pr_usrreG 发 送 的 
PRU  SEND&EPRU SENDOOB 





控制 信息 ? 


write 任何 类 型 

writev 任何 类 型 [1..UIO MAXIOV] 
send r1 1 

sendto 插口 1 

sendámsg 插口 [1..UIO-MAXIOV] 





图 16-9 写 系 统 调用 
从 图 16-9 的 第 三 栏 中 可 以 看 出 ，writev 和 sendmsg 系 统 调用 可 以 接收 从 多 个 缓存 中 来 


的 数据 。 从 多 个 缓存 中 写 数 据 称 为 收集 (gathering)， 同 它 相 对 应 的 读 操作 称 为 分 散 
(scattering)。 执 行 收集 操作 时 ， 内 核 按 序 接收 类 型 为 iovec 的 数组 中 指定 的 缓存 中 的 数 


据 。 


数组 最 多 有 UIO_MAXIOV 个 单元 。 图 16-10 显 示 了 类 型 1ovec 的 结构 。 


- uio.h 
^l struct iovec ( 
42 char *iov base; /* Base address */ 
43 size t iov len; /* Length */ 
44 ) ` 
uio.h 


图 16-10 iovec 结 构 


41-44 在 图 16-10 中 ，iov_base 指 向 长 度 为 jov_len 个 字 节 的 缓存 的 开始 。 


如 果 没 有 这 种 接口 ， 一 个 进程 将 不 得 不 将 多 个 缓存 复制 到 一 个 大 的 缓存 中 ， 或 调用 多 个 
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写 系 统 调用 来 发 送 从 多 个 缓存 来 的 数据 。 相 对 于 用 一 个 系统 调用 传送 类 型 为 ovec 的 数组 ， 
这 两 种 方法 的 效率 更 低 。 对 于 数据 报 协议 而 言 ， 调 用 一 次 writev 就 是 发 送 一 个 数据 报 ， 数 据 
报 的 发 送 不 能 用 多 个 写 动作 来 实现 。 

图 16-11 说 明了 iovec 结 构 在 writev 系 统 调用 中 的 应 用 ， 图 中 iovp 指 向 数组 的 第 一 个 元 
素 ，iovcnt 等 于 数组 的 大 小 。 









iovcnt-1] 





F-——— ——— — —hliovent-1 bytes— ———— — — 
图 16-11 writev 系 统 调用 中 的 iovec 参 数 


数据 报 协议 要 求 每 一 个 写 调用 必须 指定 一 个 目的 地 址 。 因 为 write、writev 和 send 调 
用 接口 不 支持 对 目的 地 址 的 指定 ， 因 此 这 些 调用 只 能 在 调用 connect 将 目的 地 址 同一 个 无 连 
接 的 插口 联系 起 来 后 才能 被 调用 。 调 用 sendto 或 sendmsg 时 必须 提供 目的 地 址 ， 或 在 调用 
它们 之 前 调用 connect 来 指定 目的 地 址 。 

图 16-9 的 第 五 栏 显示 send xxzx 系统 调 用 接收 一 个 可 选 的 控制 标志 ， 这 些 标志 在 图 16-12 中 
定义 。 


MSG_DONTROUTE 发 送 本 报 文 时 ， 不 查 路 由 表 


MSG_DONTWAIT 发 送 本 报 文 时 ， 不 等 待 资源 
MSG_EOR 标志 一 个 逻辑 记录 的 结束 
MSG_OOB 发 送 带 外 数据 





图 16-12 send xxx 系 统 调用 : flags 值 


如 图 16-9 的 最 后 一 栏 所 示 ， 只 有 sendmsg 系 统 调用 支持 控制 信息 。 控 制 信息 和 另外 几 个 
参数 是 通过 结构 msghar( 图 16-13) 一 次 传递 给 sendmsg， 而 不 是 分 别传 递 。 


Socket.h 
228 struct msghdr { 
229 caddr t msg, name; /* optional address */ 
230 u, int msg. namelen; /* size of address */ 
231 struct iovec *msg, iov; /* gcatter/gather array */ 
232 u int msg iovlen; /* 4 elements in msg iov */ 
233 caddr t msg control; /* ancillary data, see below */ 
234 u, int msg controllen; - /* ancillary data buffer len */ 
235 int msg flags; /* Figure 16.33 */ 
236 ); 
Socket.h 


图 16-13 msghdr 结 构 


msg_name 应 该 被 说 明成 一 个 指向 sockaddr 结 构 的 指针 ， 因 为 它 包含 网 络 地 址 。 


228-236 msghdr 结 构 包 含 一 个 目的 地 址 (msg_name 和 msg_namelen)、 一 个 分 散 / 收 集 数 
组 (msg_iov 和 msg_iovlen)、 控 制 信息 (msg_control 和 msg_controllen) 和 接收 标志 
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(msg_flags)。 控 制 信息 的 类 型 为 cmsghdr 结 构 ， 如 图 16-14 所 示 。 


socket.h 
251 struct cmsghdr { 
252 u int cmsg len; /* data byte count, including hdr */ 
253 int cmsg level; /* originating protocol */ 
254 int cmsg type; /* protocol-specific type */ 
255 /* followed by u_char cmsg datal]; */ 
256 ); 
Socket.h 





图 16-14 _ cmsghar 结 构 


251-256 插口 层 并 不 解释 控制 信息 ， 但 是 报 文 的 类 型 被 置 为 cmsg_type， 且 报 文 长 度 为 
cmsg_len。 多 个 控制 报 文 可 能 出 现在 控制 信息 缓存 中 。 


举例 
图 16-15 说 明了 在 调用 sendmsg 时 msghdr 的 结构 。 


msg_namelen—————————— 















msghdrí) 


msg flags 























cmsg len 


cmsg level i cmsg type | data | 


msg controllen———— — ———————— — — — —— M 


图 16-15 sendmsg 系 统 调用 的 msghdr 结 构 








16.5 sendmsg 系 统 调 用 


只 有 通过 sendmsg 系 统 调用 才能 访问 到 与 播 口 API 的 输出 有 关 的 所 有 功能 。sendmsg 和 
sendit 函 数 准 备 sosend 系 统 调用 所 需 的 数据 结构 ， 然 后 由 sosend 调 用 将 报 文 发 送 给 相应 
的 协议 。 对 SOCK_DGRAM 协 议 而 言 ， 报 文 就 是 数据 报 。 对 SOCK_STREAM 协 议 而 言 ， 报 文 是 
一 串 字 节 流 。 对 于 SOCK_SEQPACKET 协 议 而 言 ， 报 文 可 能 是 一 个 完整 的 记录 ( 隐 含 的 记录 边 
界 ) 或 一 个 大 的 记录 的 一 部 分 ( 显 式 的 记录 边界 )。 对 于 SOCK_PDM 协 议 而 言 ， 报 文 总 是 一 个 完 
整 的 记录 ( 隐 含 的 记录 边界 )。 

即使 一 般 的 sosend 代 码 处 理 SOCK_SEOPACKET 和 SOCK_PDK 协 议 ， 但 是 在 

Internet 域 中 没有 这 样 的 协议 。 

图 16-16 显 示 了 sendmsg 系 统 调 用 的 源 代 码 。 

307-319 sendmsg 有 三 个 参数 : 插口 描述 符 ;' 指向 msghdr 结 构 的 指针 ; 几 个 控制 标志 。 
函数 copyin 将 msghar 结 构 从 用 户 空间 复制 到 内 核 。 
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307 struct sendmsg args ( uipc. syscalls.c 
308 int S; 

309 caddr.t msg; 

310 int flags; 

311 }; 

312 sendmsg(p, uap, retval) 

313 struct proc *p; 

314 struct sendmsg.args *uap; 

315 int *retval; 

316 ( 

317 struct msghdr msg; 

318 struct iovec aiov[UIO SMALLIOV], *iov; 

319 int error; 

320 if (error = copyin(uap-»msg, (caddr, t) & msg, sizeof (msg))) 
321 return (error); 

322 if ((u int) msg.msg iovlen »- UIO SMALLIOV) ( 

323 if ((u int) msg.msg iovlen »- UIO, MAXIOV) 

324 return (EMSGSIZE); 

325 ` MALLOC (iov, struct iovec *, 

326 sizeof (struct iovec) * (u int) msg.msg iovlen, M_IOV, 
327 M, WAITOK) ; 

328 ) else 

329 iov - aiov; 

330 if (msg.msg iovlen && 

331 (error = copyin((caddr t) msg.msg iov, (caddr. t), iov, 
332 (unsigned) (msg.msg iovlen * sizeof(struct iovec))))) 
333 goto done; 

334 msg.msg iov - iov; 

335 error = sendit(p, uap-»s, &msg, uap-»flags, retval); 

336 done: 

337 if (iov !- aiov) 

338 FREE (iov, M IOV) ; 

339 return (error); 

340 ) 





uipc, syscalls.c 





图 16-16 senqmsg 系 统 调用 


1. 复制 iov 数 组 
320-334 ”一 个 有 8 个 元 素 (UIO_SMALLIOV) 的 iovec 数 组 从 栈 中 自动 分 配 。 如 果 分 配 的 数 
组 不 够 大 ，sendmsg 将 调用 MALLOC 分 配 更 大 的 数组 。 如 果 进 程 指 定 的 数组 单元 大 于 
1024(UIO_MAXIOV)， 则 返回 EMSGSIZE。 copyin 将 iovec 数 组 从 用 户 空间 复制 到 栈 中 的 数 


组 或 一 个 更 大 的 动态 分 配 的 数组 中 。 
这 种 技术 避免 了 调用 malloc 带 来 的 高 代价 ， 因 为 大 多 数 情况 下 ， 数 组 的 单元 数 
小 于 等 于 8。 


2. sendit 和 cleanup 


335-340 如 果 sendit 返 回 ， 则 表明 数据 已 经 发 送 给 相应 的 协议 或 出 现 差错 。sendmsg 释 
放 iovec 数 组 (如 果 它 是 动态 分 配 的 ), 并 且 返 回 sendit 调 用 返回 的 结果 。 


16.6 ”sendit 函 数 


sendit 函 数 是 被 sendto 和 senqdmsg 调 用 的 公共 函数 。sendi t 初 始 化 一 个 uio 结 构 ， 
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将 控制 和 地 址 信息 从 进程 空间 复制 到 内 核 。 在 讨论 sosendq 之 前 ， 我 们 必须 先 解释 uiomove 
打数 和 uio 结 构 。 


16.6.1 uiomove 函 数 


uiomovefp ray Jm «y 3: 

int uiomove(caddr t cp, int nm, struct uio *uio); 

uiomove 消 数 的 功能 是 在 由 cp 指向 的 缓存 与 uio 指 向 的 类 型 为 iovec 的 数组 中 的 多 个 缓存 之 
间 传 送 n 个 字 节 。 图 16-7 说 明了 uio 结 构 的 定义 ， 该 结构 控制 和 记录 uiomove 的 行为 。 


- uio.h 
45 enum uio rw ( 
46 UIO, READ, UIO WRITE 
47 ); 
48 enum uio seg ( /* Segment flag values */ 
49 UIO USERSPACE, /* from user data space */ 
50 UIO.SYSSPACE, /* from system space */ 
51 UIO USERISPACE /* from user instruction space */ 
52 ); t 
53 struct uio { 
54 struct iovec *uio_iov; /* an array of iovec structures */ 
55 int uio iovcnt; /* Size of iovec array */ 
56 off t uio offset; /* starting position of transfer */ 
57 int uio, resid; /* remaining bytes to transfer */ 
58 enum uio seg uio,segflg; /* location of buffers */ 
59 enum uio rw uio rw; /* direction of transfer */ 
60 struct proc *uio procp; /* the associated process */ 
61 ); . 
uio.h 


图 16-17 uio 结 构 


45-61 在 uio 结 构 中 ，uio_iov 指 向 类 型 为 iovec 结 构 的 数组 ，uio_offset 记 录 
uiomove 传 送 的 字 节 数 ，uio_resia 记 录 剩 余 的 字 节 数 。 每 次 调用 uicomove， 
uio_offset 增 加 n，uio_resid 减 去 n。 同 时 ，uiomove 根 据 传送 的 字 节 数 调整 uio_iov 
数组 中 的 基 指 针 和 缓存 长 度 ， 从 而 从 缓存 中 删除 每 次 调用 时 传送 的 字 节 。 最 后 ， 每 当 从 
uio_iov 中 传送 一 块 缓存 ，uio_iov 数 组 的 每 个 单元 就 向 前 进 一 个 数组 单元 。uio_segf1g 
指向 uio_iov 数 组 的 基 指 针 指向 的 缓存 的 位 置 。uio_rw 指 定数 据 传送 的 方向 。 缓 存 可 能 在 
用 户 数 据 空间 ， 用 户 指 令 空间 或 内 核 数 据 空间 。 图 16-18 对 uiomove 函 数 的 操作 进行 了 小 结 。 
图 中 对 操作 的 描述 用 到 了 uiomove 函 数 原型 中 的 参数 名 。 









UIO_USERSPACE UIO-READ | 从 内 核 缓存 cp 中 分 散 m 个 字 节 到 进程 缓存 
UIO USERISPACE 


| UIO USERISPACE | 
UIO-WRITE | 从 进程 缓存 中 收集 nr 个 字 节 人 划 内 核 缓存 cp 
| UTO_USERISPACE | 






UIO SYSSPACE 从 内 核 缓存 cp 中 分 散 mn 个 字 节 到 多 个 内 核 缓存 
从 多 个 内 核 缓 存 中 收集 rn 个 字 节 到 内 核 缓存 cp 中 


图 16-18 uiomove 操 作 
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16.6.2 举例 


图 16-19 显 示 了 一 个 调用 uiomove 之 前 的 uio 结 构 。 


+ 一 uio resid 一 一 一 一 一 一 一 一 | 


















iov_base 





uio 






uio, iovcnt 





uio offset 








ng + ni * n2 
UIO,USERSPACE 
UIO WRITE 
-------- » 进程 





NENNEN | 
图 16-19 调用 uiomove 前 的 uio 结 构 
uio_iov 指 向 iovec 数 组 的 第 一 个 单元 。iov_base 指 针 数 组 的 每 一 个 单元 分 别 指 问 它 
们 在 进程 地 址 空间 中 的 缓存 的 起 始 地 址 。uio_offset 等 于 0，uio_resid 等 于 三 块 缓存 的 
总 的 大 小 。cp 指 向 内 核 中 的 一 块 缓存 ， 一 般 来 说 ， 这 块 缓存 是 一 个 mbuf 的 数据 区 。 图 16-20 
显示 了 调用 uiomove 之 后 同一 个 uio 结 构 的 内 容 。 


uiomove(cp, n, uio); 


Ie —4áio. offset —el— —— uio resid —— s 











uio resid 


uio segflg |UIO USERSPACE 
Le - ite 


le— — uio offset — —e 





图 16-20 调用 uiomove 后 的 uio 结 构 
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在 上 述 调用 中 ，n 包 括 第 一 块 缓存 中 的 所 有 字 节 和 第 二 块 缓存 中 的 部 分 字 节 ( 即 ， 
ng«n«ng*n,). 

调用 uiomove 后 ， 第 一 块 缓存 的 长 度 变 为 0， 且 它 的 基 指 针 指 向 缓存 的 末端 。uio_iov 
现在 指向 iovec 数 组 的 下 一 个 单元 。 单 元 指针 也 前 进 了 一 个 单元 ， 长 度 也 减少 了 ， 减 少 的 字 
节 数 等 于 缓存 中 被 传送 的 字 节 数 。 同 时 ，uio_offset 增 加 了 n，uio_resid 减 少 了 n。 数 据 
已 经 从 进程 中 的 缓存 传送 到 内 核 缓 存 ， 因 为 uio_rw 等 于 UIO_WRITE . 。 


16.6.3 sendit 代 码 


现在 开始 讨论 sendit 的 代码 ， 如 图 16-21 所 示 。 

1. 初始 化 auio . 
341-368 sendit 调 用 getsock 函 数 获取 描述 符 对 应 的 file 结 构 、， 初 始 化 uio 结 构 ， 并 将 
进程 指定 的 输出 缓存 中 的 数据 收集 到 内 核 缓 存 中 。 传 送 的 数据 的 长 度 通 过 一 个 for 循 环 来 计 
算 ， 并 将 结果 保存 在 uio_resid。 循环 内 的 第 一 个 if 保 证 缓存 的 长 度 非 负 。 第 二 个 if 保 证 
uio_resid 不 溢出 ， 因 为 uio_resid 是 一 个 有 符号 的 整数 ， 且 iov_len 要 求 非 负 。 

2. 从 进程 复制 地 址 和 控制 信息 
369-385 如 果 进 程 提供 了 地 址 和 控制 信息 , 则 scckargs 将 地 址 和 控制 信息 复制 到 内 核 缓存 
中 。 

uipc syscalls.c 


341 sendití(p, s, mp, flags, retsize) 
342 struct proc *p; 


343 int S; 

344 struct msghdr *mp; 

345 int flags, *retsize; 

346 ( 

347 struct file *fp; 

348 Struct uio auio; 

349 struct iovec *iov; 

350 int i; 

351 struct mbuf *to, *control; 

352 int len, error; 

353 if (error - getsock(p-»p fd, s, &fp)) 

354 return (error); 

355 auio.uio iov - mp-»msg iov; 

356 auio.uio iovcnt - mp-»msg iovlen; 

357 auio.uio segflg - UIO USERSPACE; 

358 auio.uio rw - UIO WRITE; 

359 auio.uio procp = p; 

360 aulo.uio offset - 0; /* XXX */ 

361 auio.uio resid - 0; 

362 iov - mp-»msg iov; 

363 for (i = 0; i < mp-»msg iovlen; i++, iov++) ( 
364 if (iov-»iov len < 0) 

365 return (EINVAL); 

366 if ((auio.uio resid += iov-»iov len) < 0) 
367 return (EINVAL); 

368 ) : 

369 if (mp-»msg name) ( 

370 if (error = sockargs(&to, mp-»msg name, mp-»msg namelen, 
371 MT. SONAME) ) 


图 16-21 sendit% 
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372 return (error); 

373 ) else 

374 to = 0; 

375 if (mp-»msg control) { 

376 if (mp-»msg. controllen < sizeof(struct cmsghár) 

377 ) { 

378 error = EINVAL; 

379 goto bad; 

380 ) 

381 if (error = sockargs(&control, mp-»msg. control, 

382 mp-»msg controllen, MT. CONTROL)) 
383 goto bad; 

384 ) else 

385 control - 0; 

386 len - auio.uio resid; 

387 if (error = sosend((struct socket *) fp-»f data, to, &auio, 
388 (struct mbuf *) 0, control, flags)) ( 
389 if (auio.uio,resid !- len && (error == ERESTART || 
390 error -- EINTR || error -- EWOULDBLOCK)) 
391 error - 0; 

392 if (error -- EPIPE) 

393 psignal(p, SIGPIPE); 

394 ) 

395 if (error == Q0) 

396 *retsize - len - auio.uio resid; 

397 bad: 

398 if (to) 

399 m freem(í(to); 

400 return (error); 

401 ) 


uipc syscalls.c 


图 16-21 (4) 


3. 发 送 数 据 和 清除 缓存 
386-401 为 了 防止 sosend 不 接受 所 有 数据 而 无 法 计算 传送 的 字 节 数 ， 将 uio_resid 的 值 
保存 在 len 中 。 将 插口 、 目 的 地 址 、uio 结 构 、 控 制 信息 和 标志 全 部 传 给 函数 sosend。 当 
sosendq 返 回 后 ，sendQqit 啊 应 如 下 : 
。 如 果 sosend 传 送 了 部 分 数据 后 ， 传 送 被 信号 或 阻塞 条 件 所 中 断 ， 差错 被 丢弃 ， 报 告 传 
送 了 部 分 数据 。 
。 如 果 sosend 返 回 EPIPE， 则 发 送信 号 SIGPIPE 给 进程 。error 设 置 成 非 9， 所 以 如 来 
进程 捕捉 到 了 该 信号 ， 并 且 从 信号 处 理 程 序 中 返回 ， 或 进程 忽略 信号 ， 写 调用 返回 
EPIPE. 
。 如 果 没 有 差错 出 现 (或 差错 被 委 弃 )， 则 计算 传送 的 字 节 数 ， 并 将 其 保存 在 *retsize 中 。 
如 果 sendit 返 回 9，syscall( 第 15.4 节 ) 返 回 *retsize 给 进程 而 不 是 返回 差错 代码 。 
。 如果 任何 其 他 类 型 的 差错 出 现 ， 返 回 相 应 差错 代码 给 进程 。 
在 返回 之 前 ，sendit 释 放 包 含 目 的 地 址 的 缓存 。sosend 负 责 释放 control 缓 存 。 


16.7 sosend 函 数 


sosend 是 插口 层 中 最 复杂 的 函数 之 一 。 在 图 16-8 中 已 提 到 过 所 有 五 个 写 系 统 调用 最 终 部 
要 调用 sosend。sosend 的 功能 就 是 : 根据 插口 指明 的 协议 支持 的 语义 和 缓存 的 限制 ， 将 数 
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据 和 控制 信息 传递 给 插口 指明 的 协议 的 pr_usrreGq 国 数 。sosendq 从 不 将 数据 放 在 发 送 缓存 
中 ; 存储 和 移 走 数据 应 由 协议 来 完成 。 

sosend 对 发 送 缓存 的 sb_hiwat 和 sb_lowat 值 的 解释 ， 取 决 于 对 应 的 协议 是 否 实现 可 
靠 或 不 可 靠 的 数据 传送 功能 。 


16.7.1 可 靠 的 协议 缓存 


对 于 提供 可 靠 的 数据 传送 协议 ， 发 送 缓存 保存 了 还 没有 发 送 的 数据 和 已 经 发 送 但 还 没有 

被 确认 的 数据 。sib_cc 等 于 发 送 缓存 的 数据 的 字 节 数 ， 且 0 < sb_cc& sb_hiwat。 
如 果 有 带 外 数据 发 送 ， 则 sb_cc 有 可 能 暂时 超过 sb_hiwat。 

sosengd 应 该 确保 在 通过 pr_usrreq 勾 数 将 数据 传递 给 协议 层 之 前 有 足够 的 发 送 缓存 。 
协议 层 将 数据 放 到 发 送 缓存 中 。sosend 通 过 下 面 两 种 方式 之 一 将 数据 传送 给 协议 层 : 

。 如 果 设 置 了 PR_ATOMIC，sosend 就 必须 保护 进程 和 协议 层 之 间 的 边界 。 在 这 种 情况 

下 ，sosend 等 待 得 到 足够 的 缓存 来 存储 整个 报 文 。 当 获取 到 足够 的 缓存 后 ， 构 造 存储 
整个 报 文 的 mbuf 链 ， 并 用 pr_usrreg 国 数 一 次 性 传送 给 协议 层 。RDP 和 SPP 就 是 这 种 
类 型 的 协议 。 

。 如 果 没 有 设置 PR_ATOMIC，sosendg 每 次 传送 一 个 存 有 报 文 的 mbuf 给 协议 ， 可 能 传送 
部 分 mbuf 给 协议 层 以 防止 超过 上 限 。 这 种 方法 在 SOCK_STREAM 类 协议 如 TCP 中 各 
SOCK_SEQPACKET 类 协议 如 TP4 中 被 采用 。 在 TP4 中 ， 记 录 边 界 通 过 MSG_EOR 标 志 ( 图 
16-12) 来 显 式 指定 ， 所 以 sosend 设 有 必要 保护 报 文 边 界 。 

TCP 应 用 程序 对 外 出 的 TCP 报 文 段 的 大 小 没有 控制 。 例 如 ， 在 TCP 插 口上 发 送 一 个 长 度 为 
4096 字 节 的 报 文 ， 假 定 发 送 缓存 中 有 足够 的 缓存 ， 则 插口 层 将 该 报 文 分 成 两 部 分 ， 每 一 部 分 
长 度 为 2048 个 字 节 ， 分 别 存 放 在 一 个 带 外 部 得 的 mbuf 中 。 然 后 ， 在 协议 处 理 时 ，TCP 将 根据 
连接 上 的 最 大 报 文 段 大 小 将 数据 分 段 ， 通 常情 况 下 ， 最 大 报 文 段 大 小 为 2048 个 字 市 。 

当 一 个 报 文 因为 太 大 而 没有 足够 的 缓存 时 ， 协 议 允 许 报 文 被 分 成 多 段 ， 但 sosend 仍 然 不 
将 数据 传送 给 协议 层 直到 缓存 中 的 闲置 空间 大 小 大 于 sb_1owat。 对 于 TCP 而 言 ，sb_1owat 
的 默认 值 为 2048 (图 16-4)， 从 而 阻止 播 口 层 在 发 送 缓存 快 满 时 用 小 块 数据 于 扰 TCP。 


16.7.2 不 可 靠 的 协议 缓存 


对 于 提供 不 可 靠 的 数据 传输 的 协议 (如 UDP) 而 言 ， 发 送 缓存 不 需 保存 任何 数据 ， 也 不 等 竺 
任何 确认 。 每 一 个 报 文 一 旦 被 排队 等 待 发 送 到 相应 的 网 络 设备 ， 插 口 层 立即 将 它 传送 到 协议 。 
在 这 种 情况 下 ，sb_cc 总 是 等 于 0，sb_hiwat 指 定 每 一 次 写 的 最 大 长 度 ， 间 接 指明 数据 报 的 
最 大 长 度 。 

图 16-4 显 示 了 UDPP 协 议 的 sb_hiwat 的 默认 值 为 9216(9 x 1024)。 如 果 进 程 没 有 通过 
SO_SNDBUF 插 口 选 项 改变 sb_hiwat 的 值 , 则 发 送 长 度 大 于 9216 个 字 节 的 数据 报 将 导致 差错 。 
不 仅 如 此 ， 其 他 的 协议 限制 也 可 能 不 允许 一 个 进程 发 送 大 的 数据 报 报 文 。 卷 1 的 第 11.10 节 中 
已 讨论 了 在 其 他 的 TCP/IP 实 现 中 的 这 些 选 项 和 限制 。 

对 于 NFS 写 而 言 ，9216 已 足够 大 ，NFS 写 的 数据 加 上 协议 首部 的 长 度 一 般 默 认为 

8192 个 字 节 。 
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图 16-22 显 示 了 sosend 国 数 的 概况 。 下 面 分 别 讨 论 图 中 四 个 带 阴影 的 部 分 。 


uipc socket.c 
271 sosend(so, addr, uio, top, control, flags) pe 


272 struct socket *so; 
273 struct mbuf *addr; 
274 struct uio *uio; 

275 struct mbuf *top; 

276 struct mbuf *control; 
277 int flags; 

278 ( 





/* initialization (Figure 16. 


305 restart: 

306 if (error = sblock(&so-»so snd, SBLOCKWAIT(flags))) 

307 goto out; 

308 do ( /* main loop, until resid -- 0 */ 











/* wait for space in send buffer 243. a 






342 do ( 
343 if (uio == NULL) ( 
344 /* 
345 * Data is prepackaged in "top". 
346 */ 
347 resid - 0; 
348 if (flags & MSG  EOR) 
349 top-»m flags l= M_EOR; 
350 ) else 
351 do ( 
/* fill a single mbuf or an mii 
396 ) while (space » 0 && atomic); 
/* pass mbuf chain to protbca "IPigure 16.26) *; 
412 ) while (resid && space » 0); 
413 ) while (resid); 
414 release: 
415 sbunlock(&so-»so snd); 
416 out: 
417 if (top) 
418 m freem(top); 
419 if (control) 
420 m freem(control); 
421 return (error); 
422 ) 


uipc, socket.c 





图 16-22 sosendp Zi: 概述 
271-278 ”sosend 的 参数 有 如 下 儿 个 : so， 指 向 相应 播 口 的 指针 ; addr， 指 向 目的 地 址 的 
指针 ; uio， 指 向 描述 用 户 空 间 的 MO 缓存 的 uio 结 构 ; top， 保 存 将 要 发 送 的 数据 的 mbuf 
$; control， 保 存 将 要 发 送 的 控制 信息 的 mbuf 链 ; flags， 包 含 本 次 写 调用 的 一 些 选项 。 
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正常 情况 下 ， 进 程 通过 uio 机 制 将 数据 提供 给 播 口 层 ，top 为 空 。 当 内 核 本 身 正 在 使 用 插 
口 层 时 (如 NFS)， 数 据 将 作为 一 个 mbuf 链 传送 给 sosend，top 指 向 该 mbuf 链 ， 而 uio 为 空 。 
279-304 初始 化 代码 分 别 如 下 所 述 。 

l. 给 发 送 缓 存 加 锁 
305-308 sosend 的 主 循环 从 restart 开 始 ， 在 循环 的 开始 调用 sblock 给 发 送 缓存 加 锁 。 
通过 加 锁 确保 多 个 进程 按 序 互 斥 访问 插口 缓存 。 

如 果 在 fljags 中 MSG_DONTWAIT 被 设置 ， 则 SBLOCKWAIT 将 返回 M_NOWAIT。 
M_NOWAIT 告 知 sblock， 如 果 不 能 立即 加 锁 ， 则 返回 EWOULDBLOCK。 


MSG_DONTWAIT 仅 用 于 Net3 中 的 NEFS 。 


主 循环 直到 将 所 有 数据 都 传送 给 协议 ( 即 residq=0) 后 才 退 出 。 

2. 检查 空间 
309-341 在 传送 数据 给 协议 之 前 ， 需 要 对 各 种 差错 情况 进行 检查 ， 并 月 sosend 实 现 前 面 
讨论 的 流 控 和 资源 控制 算法 。 如 果 sosend 阻 塞 等 待 输 出 缓存 中 的 更 多 的 空间 ， 则 它 跳 回 
restart 等 待 。 

3. 使 用 top 中 的 数据 
342-350 一旦 有 了 足够 的 空间 并 且 sosend 也 获得 了 发 送 缓存 上 的 锁 ， 则 准备 传送 给 协议 
的 数据 。 如 果 uio 等 于 空 ( 即 数据 在 cop 指 向 的 mbuf 链 中 )， 则 sosenq 检 查 MSG_EOR， 并 且 在 
链 中 设置 M_EOR 来 标志 逻 辑 记录 的 结束 。mbuf 链 是 准备 发 送 给 协议 层 的 。 

4. 从 进程 复制 数据 
351-396 如 果 uio 不 空 ， 则 sosend 必 须 从 进程 间 复 制 数据 。 当 PR_ATOMIC 被 设置 时 (例如 ， 
UDP)， 循 环 继续 ， 直 到 所 有 数据 都 被 复制 到 一 个 mbuf 链 中 。 当 sosend 从 进程 得 到 所 有 数据 
后 ， 通 过 循环 中 的 break( 图 16-22 中 没有 显示 这 个 break) 跳 出 循环 .跳出 循环 后 ，sosend 
将 整个 数据 链 一 次 传送 给 相应 协议 。 

5. 传送 数据 给 协议 
395-414 对 于 PR_ATOMIC 协 议 ， 当 整个 数据 链 被 传送 给 协议 后 ，resid 总 是 等 于 0， 并 且 
控制 跳出 两 个 循环 后 至 release 处 。 如 果 PR_ATOMIC 没 有 被 置 位 ， 且 当 还 有 数据 要 发 送 并 
有 缓存 空间 时 ， 则 sosena 继 续 往 mbuf 中 写 数 据 。 如 果 缓 存 中 没有 闲置 空间 ， 但 仍然 有 数据 
要 发 送 ， 则 sosend 回 到 循环 开始 ， 等 待 亲 置 空间 来 写 下 一 个 mbuf。 如 果 所 有 数据 都 发 送 完 ， 
则 两 个 循环 结束 。 

6. 释放 缓存 
414-422 当 所 有 数据 都 传送 给 协议 后 ， 给 插口 缓存 解锁 ， 释 放 多 余 的 mbuf 缓 存 ， 然 后 返回 。 

sosend 的 详细 情况 将 分 四 个 部 分 来 描述 : 

。 初 始 化 (图 16-23) 

。 差 错 和 资源 检查 (图 16-24) 

。 数 据 传送 (图 16-25) 

。 协 议 处 理 (图 16-26) 

sosend 的 第 一 部 分 初始 化 变量 ， 如 图 16-23 所 示 。 

7. 计算 传送 大 小 和 语义 
279-284 ”如 果 sosendallatonce 等 于 true( 任 何 设置 了 PR_ATOMIC 的 协议 ) 或 数据 已 经 
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通过 top 中 的 mbuf 链 传送 给 sosend， 则 将 设置 atomic。 这 个 标志 控制 数据 是 作为 一 个 mbuf 
链 还 是 作为 多 个 独立 的 mbuf 传 送 给 协议 。 

285-297 residq 等 于 iovec 缓 存 中 的 数据 字 节 数 或 cop 中 的 mbuf 链 中 的 数据 字 节 数 。 习 题 
16.1 讨 论 为 什么 resid 可 能 等 于 负数 的 问题 。 


uipc socket.c 
279 struct proc *p - curproc; /* XXX */ 
280 struct mbuf **mp; 
281 struct mbuf *m; 
282 long Space, len, resid; 
283 int clen - 0, error, s, dontroute, mlen; 
284 int atomic = sosendallatonce(so) |] top; 
285 if (uio) 
286 resid = uio-»uio, resid; 
287 else 
288 resid - top-»m pkthdr.len; 
289 /* 
290 * In theory resid should be unsigned. 
291 * However, space must be signed, as it might be less than 0 
292 * if we over-committed, and we must use a signed comparison 
293 * of space and resid. On the other hand, a negative resid 
294 * causes us to loop sending 0-length segments to the protocol. 
295 */ 
296 if (resid < 0) 
297 return (EINVAL); 
298 dontroute = 
299 (flags & MSG, DONTROUTE) && (so->so_options & SO DONTROUTE) == 0 && 
300 (so-»so proto-»pr flags & PR ATOMIC); 
301 p-»p stats-»p ru.ru msgsnd-«*; 
302 if (control) 
303 clen - control-»m len; 
304 $define snderr (errno) { error = errno; splx(s); goto release; ) ， 
一 -一 Upc socket.c 
图 16-23 sosendq 国 数 : 初始 化 
8. 关闭 路 由 


298-303 如 果 仅仅 要 求 对 这 个 报 文 不 通过 路 由 表 进 行路 由 选择 ， 则 设置 ontroute。 
clen 等 于 在 可 选 的 控制 缓存 中 的 字 节 数 。 
304 宏 snderr 传 送 差错 代码 ， 重 新 使 能 协议 处 理 ， 控 制 跳 转 到 out 执 行 解锁 和 释放 缓存 的 工 
作 。 这 个 宏 简 化 函数 内 的 差错 处 理工 作 。 

图 16-24 显 示 的 sosend 代 码 功 能 是 检查 差错 条 件 和 等 待 发 送 缓存 中 的 闲置 空间 。 
309 ” 当 检 查 差错 情况 时 ， 为 防止 缓存 发 生 改变 ， 协 议 处 理 被 挂 起 。 在 每 一 次 数据 传送 之 前 ， 
sosend 要 检查 以 下 几 种 差错 情况 : 
310-311 。 如 果 插 口 输出 被 禁止 ( 即 ，TCP 连 接 的 写 道 通 已 经 被 关闭 )， 则 返回 EPIPE。 
312-313 。 如 果 插 口 正 处 于 差错 状态 (例如 ， 前 一 个 数据 报 可 能 已 经 产生 了 一 个 ICMP 不 可 达 
的 差错 )， 则 返回 so_error。 如 果 差 错 出 现 之 前 数据 已 经 被 收 到 ， 则 senait 忽 略 这 个 差错 
(图 16-21 的 第 389 行 )。 
314-318 。 如 果 协 议 请 求 连 接 且 连 接 还 没有 建立 或 连接 请 求 还 设 有 启动 , 则 返回 BNOTCONN。 
sosend 人 允许 只 有 控制 信息 但 没有 数据 的 写 操作 ， 即 使 连接 还 没有 建立 。 

Internet 协 议 并 不 使 用 这 个 特点 ， 但 TP4 用 它 在 连接 请 求 中 发 送 数据 ,证实 连接 请 
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求 ， 在 断 连 请 求 中 发 送 数据 。 
319-321 。 如果 在 无 连接 协议 中 没有 指定 目的 地 址 (例如 ， 进 程 调用 send 但 并 没有 用 
connect 建 立 目 的 地 址 )， 则 返回 EDESTRADDREQ。 


uipc socket.c 
309 S - splnet(); 
310 if (so-»so,. state & SS, CANTSENDMORE) 
311 snderr(EPIPE); 
312 if (so-»so error) 
313 snderr(so-»so, error); 
314 if ((so-»so state & SS ISCONNECTED) == 0) ( 
315 if (so-»so proto-»pr,. flags & PR .CONNREQUIRED) ( 
316 if ((so-»so state & SS ISCONFIRMING) -- 0 && 
317 ! (resid -= 0 && clen !- 0)) 
318 snderr (ENOTCONN); 
319 ) else if (addr -- 0) 
320 snderr (EDESTADDRREOQ); 
321 } 
322 space = sbspace(&so-»so, snd) ; 
323 if (flags & MSG OOB) 
324 space += 1024; 
325 if (atomic && resid > so-»so snd.sb hiwat |l 
326 cien > so-»so snd.sb hiwat) 
327 snderr (EMSGSIZE); 
328 if (space < resid + clen && uio && 
329 (atomic || space < so-»so snd.sb lowat || space < clen)) ( 
330 if (so-»so state & SS, NBIO) 
331 snderr (EWOULDBLOCK);: 
332 sbunlock(&so-»so snd); 
333 error = sbwait(&so-»so snd); 
334 splx(s); 
335 if (error) 
336 goto out; 
337 goto restart; 
338 H 
339 Splix(s); 
340 mp = &top; 
341 Space clen; uipc_socket.c 


16-24 sosendiff/É: 差错 和 资源 检查 


9. 计算 可 用 空间 
322-324 ”sbspace 函 数 计算 发 送 缓存 中 剩余 的 闲置 空间 字 节 数 。 这 是 一 个 基于 缓存 高 水 位 
标记 的 管理 上 的 限制 ， 但 也 是 sb_mbmax 对 它 的 限制 ， 其 目的 是 为 了 防止 太 多 的 小 报 文 消耗 
太 多 的 mbuf 缓 存 (图 16-6)。sosend 通 过 放宽 缓存 限制 到 1024 个 字 节 来 给 予 带 外 数据 更 高 的 优 
先 级 。 

10. 强制 实施 报 文大 小 限制 
325-327 ”如果 atomic 被 置 位 ， 并 且 报 文大 于 高 水 位 标记 (high-water mark)， 则 返回 
EMSGSIZE; 报 文 因为 太 大 而 不 被 协议 接受 ， 即 使 缓存 是 空 的 。 如 果 控 制 信息 的 长 度 大 于 高 
水 位 标记 ， 同 样 返回 EMSGSIZE。 这 是 限制 数据 或 记录 大 小 的 测试 代码 。 

11. 等 待 更 多 的 空间 吗 ? 
328-329 如果 发 送 缓存 中 的 空间 不 够 ， 数 据 来 源 于 进程 (而 不 是 来 源 于 内 核 中 的 top)、 并 且 
下 列 条 件 之 一 成 立 ， 则 sosend 必 须 等 待 更 多 的 空间 : 
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。 报 文 必须 一 次 传送 给 协议 (atomic 为 真 ) 或 

。 报 文 可 以 分 段 传送 ， 但 闲置 空间 大 小 低 于 低 水 位 标记 ; 或 

。 报 文 可 以 分 段 传送 ， 但 可 用 空间 存放 不 下 控制 信息 。 

当 数 据 通过 top 传 送 给 sosenda ( 即 ，uio 为 空 ) 时 ， 数 据 已 经 在 mbuf 缓 存 中 。 因 此 ， 
sosend 忽 略 缓存 高 、 低 水 位 标记 限制 ， 因 为 不 需要 附加 的 缓存 来 保存 数据 。 

如 果 在 测试 中 ， 和 忽略 发 送 缓存 的 低 水 位 标记 ， 在 插口 层 和 运输 层 之 间 将 出 现 一 种 有 趣 的 
交互 过 程 ， 它 将 导致 性 能 下 降 。[Crowcroft et al. 1992] 提 供 了 有 关 这 个 问题 的 详细 情况 。 

12. 等 待 空间 
330-338 如 果 sosend 必 须 等 待 缓存 且 插 口 是 非 阻塞 的 ， 则 返回 EwWOULDBLOCK。 同 时 ， 缓 
存 锁 被 释放 ，sosend 调 用 sbwait 等 待 ， 直 到 缓存 状态 发 生变 化 。 当 sbwait 返 回 后 ， 
sosend 重 新 使 能 协议 处 理 ， 并 且 跳 转 到 restart 获 取 缓 存 锁 ， 检 查 差错 和 缓存 空间 。 如 果 
条 件 满足 ， 则 继续 执行 。 

默认 情况 下 ，sbwait 阻 塞 直到 可 以 发 送 数据 。 通 过 SO_SNDTIMEO 插 口 选项 改变 缓存 中 
的 sb timeo， 进 程 可 以 设置 等 待 时 间 的 上 限 。 如 果 定 时 器 超时 ， 则 返回 ENWOULDBLOCK。 回 
想 一 下 图 16-21， 如 果 数 据 已 经 被 成 功 发 送 给 协议 ， 则 sendit 忽 略 这 个 差错 。 这 个 定时 器 并 
不 限制 整个 调用 的 时 间 ， 而 仅仅 是 限制 写 两 个 mbuf 缓 存 之 间 的 不 活动 时 间 。 
339-341 在 这 点 上 ，sosend 已 经 知道 一 些 数据 已 传送 给 协议 。sp1x 使 能 中 断 ， 因 为 
sosend 从 进程 复制 数据 到 内 核 相 对 较 长 的 时 间 间 隔 内 不 应 该 被 阻塞 。mp 包 含 一 个 指针 ， 用 
来 构造 mbuf 链 。 在 sosend 从 进程 复制 任何 数据 之 前 ， 可 用 缓存 的 数量 需 减 去 控制 信息 的 大 
小 (clen)。 

图 16-25 显 示 了 sosend 从 进程 复制 数据 到 一 个 或 多 个 内 核 中 的 mbuf 中 的 代码 段 。 

13. 分 配 分 组 首部 或 标准 mbuf 
351-360 ” 当 atomic 被 置 位 时 ， 这 段 代码 在 第 一 次 循环 时 分 配 一 个 分 组 首部 ， 随 后 分 配 标 
准 的 mbuf 缓 存 。 如 果 atomic 没 有 被 置 位 ， 则 这 段 代 码 总 是 分 配 一 个 分 组 首部 ， 因 为 进入 循 
环 之 前 ，top 总 是 被 清除 。 

14. KT fi FLA 
361-371 in Ei x E KIEGIIIK2BR—TÉKIEIRB. JEHspaceX T EAET 
MCLBYTES, Wii HMCLGETA4y Nu — ^ EIR]mbufifE—idE. Sspace/ FMCLBYTESRf, yh 
的 2048 个 字 节 将 超过 缓存 分 配 限制 ， 因 为 即使 resid 小 于 MCLBYTES， 整 个 答 也 将 被 分 配 。 

如 果 调 用 MCLGET 失 败 ，sosend 跳 转 到 nopages， 用 一 个 标准 的 mbuf 代 替 一 个 外 部 徐 。 


对 MINCLSIZE 的 测试 应 该 用 >， 而 不 是 >， 因 为 208(MINCLSIZE) 个 字 节 的 写 操 
作 只 适合 小 于 两 个 mbuf 的 情况 。 
如 果 atomic 被 设置 (例如 ，UDP)， 则 mbuf 链 表示 一 个 数据 报 或 记录 ， 并 且 在 第 一 个 徐 的 
前 面 为 协议 首部 保留 nax_hadr 个 字 节 。 而 后 续 的 徐 因 为 是 同一 条 链 的 一 部 分 ， 所 以 不 需要 再 


为 协议 首部 保留 空间 。 
如 果 atomic 没 有 被 置 位 (如 ，TCP)， 则 不 需要 保留 空间 ， 因 为 sosend 不 知道 协议 如 何 
将 发 送 的 数据 进行 分 段 。 


需要 注意 的 是 ，space 由 靠 大 小 (2048 个 字 池 ) 而 不 是 len 来 决定 ，len 等 于 放 在 秘 中 的 数 
据 的 字 节 数 ( 习 题 16-2)。 
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351 7 uipc socket.c 

352 if (top == 0) ( 

353 MGETHDR (m, M. WAIT, MT DATA); 

354 mlen - MHLEN; 

355 m-»m pkthdr.len = 0; 

356 m-»m pkthdr.rcvif - (struct ifnet *) 0; 

357 ) else ( 

358 MGET (m, M, WAIT, MT DATA); 

359 mlen - MLEN; 

360 ) 

361 if (resid »- MINCLSIZE && space »- MCLBYTES) ( 

362 MCLGET (m, M,WAIT); 

363 if ((m-»m flags & M EXT) == 0) 

364 goto nopages; 

365 mlen = MCLBYTES; 

366 if (atomic && top -- 0) ( 

367 len - min(MCLBYTES - max hdr, resid); 

368 m-»m data «- max hdr; 

369 } else 

370 len = min(MCLBYTES, resid); 

371 space -= MCLBYTES; 

372 } else { 

373 nopages: 

374 len = min(min(mien, resid), space); 

375 space -= len; 

376 /* 

377 * For datagram protocols, leave room 

378 * for protocol headers in first mbuf. 

379 */ . 

380 if (atomic && top -- 0 && len « mlen) 

381 MH ALIGN(m, len); 

382 ) 

383 error - uiomove(mtod(m, caddr t), (int) len, uio); 

384 resid = uio-»uio, resid; 

385 m-»m len - len; 

386 *mp - m; 

387 top-»m pkthdr.len «- len; 

388 if (error) 

389 goto release; 

390 mp - &m-»m next; 

391 if (resid <= 0) { 

392 if (flags & MSG_EOR) 

393 top->m_flags |= M_EOR; 

394 break; 

395 } 

396 } while (space > 0 && atomic); . 

uipc socket.c 
图 16-25 sosendtp NE: 数据 传送 
15. 准备 mbuf 


372-382 ”如果 不用 簇 ， 存 储 在 mbuf 中 的 字 节 数 受 下 面 三 个 量 中 最 小 一 个 量 的 限制 : (1) 
mbuf 中 的 可 用 空间 ; (2) 报 文 的 字 节 数 ; (3) 缓存 的 空间 。 

如 果 atomic 被 置 位 ， 则 利用 MH_ALIGN 可 知 数据 在 链 中 的 第 一 个 缓存 的 尾部 。 如 果 数 据 
占 居 整 个 mbuf， 则 忽略 MH_ALIGN。 这 一 点 可 能 导致 没有 足够 的 空间 来 存放 协议 首部 ， 主 要 
取决 于 有 多 少数 据 存放 在 mbuf 中 。 如 果 atomic 设 有 被 置 位 ， 则 没有 为 协议 首部 保留 空间 。 
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16. 从 进程 复制 数据 
383-395 uiomove 从 进程 复制 len 个 字 节 的 数据 到 mbuf。 传 送 完 成 后 ， 更 新 mbuf 的 长 度 ， 
前 面 的 mbuf 连 接 到 新 的 mbuf( 或 top 指 向 第 一 个 mbufy， 更 新 mbuf 链 的 长 度 。 如 果 在 传送 过 程 
中 发 生 差错 ， 则 sosend 跳 转 到 release。 

一 旦 最 后 一 个 字 节 传送 完毕 ， 如 果 进 程 设置 了 MSG_EOR， 则 设置 分 组 中 的 M_EOR， 然 后 
sosend 跳 出 循环 。 

MSG_EOR 仅 用 于 有 显 式 的 记录 边界 的 协议 ， 如 OSI 协议 得 中 的 TP4。TCP 不 支持 逻辑 记录 
因而 忽略 MSG_EOR 标 志 。 

17. 写 另 一 个 缓存 吗 ? 
396 如 果 设 置 了 atomic，sosend 回 到 循环 开始 ， 写 另 一 个 mbuf 。 

对 space>0 的 测试 好 像 无 关 紧 要 。 当 atomic 没 有 被 设置 时 ，space 也 是 无 关 
紧要 的 ， 因 为 一 次 只 传送 一 个 mbuf 给 协议 。 如 果 设 置 了 atomic， 只 有 当 有 足够 的 组 
存 空间 来 存放 整个 报 文 时 才 进 入 这 个 循环 。 参考 习题 16-2. 


sosend 的 最 后 一 段 代 码 的 功能 是 传送 数据 和 控制 mbuf 给 插口 指定 的 协议 ， 如 图 16-26 所 


- uipc socket.c 
397 if (dontroute) 
398 So-»so options |= SO DONTROUTE; 
399 S = splnet(); /* XXX */ 
400 error - (*so-»so proto-»pr usrreq) (so, 
401 (flags & MSG, OOB) ? PRU SENDOOB : PRU.SEND, 
402 top, addr, control): 
403 Spixís); 
404 if (dontroute) 
405 So-»so options &- ^SO DONTROUTE; 
406 clen - 0; 
407 control - 0; 
408 top - 0; 
409 mp - &top; 
410 if (error) 
411 goto release; 
412 ) while (resid && space » 0); 
413 ) while (resid); . 

uipc socket.c 


图 16-26 sosendgiE: 协议 分 散 


397-405 在 传送 数据 到 协议 层 的 前 后 ， 可 能 通过 SO_DONTROUTE 选 项 选择 是 否 利用 路 由 表 
为 这 个 报 文选 择 路 由 。 这 是 唯一 的 一 个 针对 单个 报 文 的 选项 ， 如 图 16-23 所 示 ， 在 写 期 间 通 过 
MSG_DONTROUTE 标 志 来 控制 路 由 选择 。 

为 了 防止 协议 在 处 理 报 文 期 间 pr_usrreq 阻 塞 中 断 ，pr_usrreq 被 放 在 splnet 函 数 和 
splx 函 数 之 间 执 行 。 一 些 协议 (如 UDP) 可 能 在 进行 输出 处 理 期 间 并 不 阻塞 中 断 ， 但 插口 层 得 
不 到 这 些 信息 。 

如 果 进 程 传送 的 是 带 外 数据 ， 则 sosend 发 送 PRU_SENDOOB 请 求 ;否则 ， 它 发 送 
PRU_SEND 请 求 。 同 时 将 地 址 和 控制 mbuf 传 送 给 协议 。 

406-413 ”因为 控制 信息 只 需 传送 给 协议 一 次 ， 所 以 将 clen、control、top 和 mp 初始 化 ， 
然后 为 传送 报 文 的 下 一 部 分 构造 新 的 mbuf 链 。 只 有 atomic 没 有 被 设置 时 (如 TCP)，resiqd 才 
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可 能 等 于 非 0。 在 这 种 情况 下 ， 如 果 缓 存 中 仍然 有 空间 ， 则 sosend 回 到 循环 开始 ， 继 续 写 另 
一 个 mbuf。 如 果 没 有 可 用 空间 ， 则 sosend 回 到 循环 开始 ， 等 待 可 用 空间 (图 16-24)。 

在 第 23 音 我们 将 了 解 到 不 可 靠 的 协议 ， 如 UDP， 立 即将 数据 排队 等 待 发 送 。 第 26 章 描述 
可 靠 的 协议 ， 如 TCP， 将 数据 放 到 插口 发 送 缓存 直到 数据 被 发 送 和 确认 。 


16.7.3 sosend 函 数 小 结 


sosendq 是 一 个 比较 复杂 的 函数 。 它 共有 142 行 ， 包 含 3 个 伦 套 的 循环 ， 一 个 利用 goto 实 
现 的 循环 ， 两 个 基于 是 否 设置 PR_AToMIC 的 代码 分 支 ， 两 个 并 行 锁 。 像 许多 其 他 软件 一 样 ， 
复杂 性 是 多 年 积累 的 结果 。NFS 加 入 MSG_DONTWAIT 功 能 以 及 从 mbuf 链 接收 数据 而 不 是 从 进 
程 那 里 接收 数据 。SS_ISCONFIRMING 状 态 和 MSG_EOR 标 志 是 为 处 理 OSI 协 议 连 接 和 记录 功 
能 而 加 入 的 。 

比较 好 的 做 法 是 为 每 一 种 协议 实现 一 个 独立 的 sosend 函 数 ， 通 过 分 散 指针 pr_send 给 
protosw 和 人 人 口 来 实现 。[Partridge and Pink 1993] 中 提出 并 实现 了 这 种 方法 。 


16.7.4 性 能 问题 


如 图 16-25 所 描述 的 ，sosend 尽 可 能 地 以 mbuf 为 单位 将 报 文 传送 到 协议 层 。 与 将 一 个 报 文 
用 一 个 mbuf 链 的 形式 一 次 建立 并 传送 给 协议 层 的 方法 相 比 ， 这 种 做 法 导致 了 更 多 的 调用 ， 但 
是 [Jacobson 1998a] 说 明了 这 种 做 法 增加 了 并 行 性 ， 因 而 获得 了 较 好 的 性 能 。 

一 次 传送 一 个 mbuf(2048 个 字 节 ) 允 许 CPU 在 网 络 硬件 传输 数据 的 同时 准备 一 个 分 组 。 同 
发 送 一 个 大 的 mbuf 链 相 比 : 构造 一 个 大 的 mbuf 链 的 同时 ， 网 络 和 接收 系统 是 空 闪 的 。 在 
[Jacobson 1998a] 描 述 的 系统 中 ， 这 种 改变 导致 了 网 络 否 吐 量 增加 20%。 

有 一 点 非常 重要 ， 即 确保 发 送 缓存 的 大 小 总 是 大 于 连接 的 带宽 和 时 延 的 乘积 ( 卷 1 的 第 20.7 
御 )。 例 如 ， 如 果 TCP 认 为 一 条 连接 在 收 到 确认 之 前 能 保留 20 个 报 文 段 ， 那 么 发 送 缓存 必须 大 
到 足够 存储 20 个 未 被 确认 的 报 文 段 。 如 果 发 送 缓存 太 小 ，TCP 在 收 到 第 一 个 确认 之 前 将 用 完 
数据 ， 连 接 将 在 一 段 时 间 内 是 空闲 的 。 


16.8 reada、readv、recvfrom 和 recvmsg 系 统 调用 


我 们 将 read、readv、 recvfrom 和 zecvmsg 系 统 调 用 统称 为 读 系统 调用 ， 从 网 络 连接 
上 接收 数据 。 同 recvmsg 相 比 ， 前 三 个 系统 调用 比较 简单 。 recvmsg 因 为 比较 通用 而 复杂 得 
多 。 图 16-27 给 出 了 这 四 个 系统 调用 和 一 个 库 函 数 (recv) 的 特点 。 l 
返回 控制 信息 ? 


read 任何 类 型 1 
readv 任何 类 型 | (1..U10. MAXIOV] 
recv #0 1 





recvfrom | #1 1 
recvmsg 插口 [1..UIO-MAXIOV] 


图 16-27 读 系统 调用 


在 NeU3 中 ，recv 是 一 个 库 函 数 ， 通 过 调用 recvVfrom 来 实现 的 。 为 了 同 以 前 编 
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译 的 程序 二 进 制 兼容 ， 内 核 将 旧 的 recv 系 统 调用 映射 到 池 数 orecv。 我 们 仅仅 讨论 
recvfrom 的 内 核实 现 。 


只 有 readG 和 reaqdv 系 统 调用 适用 于 各 类 描述 符 ， 其 他 的 调用 只 适用 于 插口 描述 符 。 

同 写 调用 一 样 ， 通 过 iovec 结 构 数 组 来 指定 多 个 缓存 。 对 数据 报 协 议 ，recvfrom 和 
recvmsg 返 回 每 一 个 收 到 的 数据 报 的 产地 址 。 对 于 面向 连接 的 协议 ，getpeername 返 回 连 
接 对 方 的 地 址 。 与 接收 调用 相关 的 标志 参考 第 16.11 节 。 

同 写 调用 一 样 ， 读 调用 利用 一 个 公共 函数 soreceive 来 做 所 有 工作 。 图 16-28 说 明 读 系 
统 调用 的 流程 。 





soreceive 


遂 过 pr_usrreg 发 送 的 PRU_RCVD : : 


或 PRU_RCVOOB 


图 16-28 所 有 插口 输入 都 由 soreceive 处 理 
我 们 仅仅 讨论 图 16-28 中 的 带 阴影 的 函数 。 其 余 的 函数 读者 可 以 自己 查阅 有 关 资 料 。 
16.9 recvmsg 系 统 调用 


recvmsg 国 数 是 最 通用 的 读 系 统 调 用 。 如 果 一 个 进程 使 用 任何 一 个 其 他 的 读 系统 调用 ， 
且 地 址 、 控 制 信息 和 接收 标志 的 值 还 未 定 ， 则 系统 可 能 在 没有 任何 通知 的 情况 下 丢弃 它们 。 
图 16-29 显 示 了 recvmsg 图 数 。 
433-445 tecvmsg 的 三 个 参数 是 : 插口 描述 符 ;' 类 型 为 nsghar 的 结构 指针 ， 几 个 控制 标 


d 
Ao 


1. 复制 iov 数 组 
446-461 同 sendmsg 一 样 ，recvmsg 将 msghdr 结 构 复制 到 内 核 ， 如 果 自 动 分 配 的 数组 
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aiov 太 小 ， 则 分 配 一 个 更 大 的 iovec 数 组 ， 并 且 将 数组 单元 从 进程 复制 和 到 由 iov 指 向 的 内 核 
数组 (第 16.4 节 )。 将 第 三 个 参数 复制 到 msghar 结 构 中 。 





uipc_syscalls.c 


433 struct recvmsg args { 


434 
435 
436 


437 ); 


int S; 
struct msghdr *msg; 
int flags; 


438 recvmsg(p, uap, retval) 
439 struct proc *p; 
440 struct recvmsg args *uap; 


441 int *retval; 

442 ( 

443 struct msghdr msg; 

444 struct iovec aiov[UIO SMALLIOV], *uiov, *iov; 

445 int error; 

446 if (error = copyin((caddr t) uap-»msg, (caddr t) & msg, sizeof (msg))) 
447 return (error); 

448 if ((u int) msg.msg iovlen >= UIO SMALLIOV) ( 

449 if ((u int) msg.msg iovlen »- UIO MAXIOV) 

450 return (EMSGSIZE); 

451 MALLOC(iov, struct iovec *, 

452 sizeof(struct iovec) * (u int) msg.msg iovlen, M IOV, 

453 M WAITOK); 

454 ) else 

455 iov = aiov; 

456 msg.msg flags = uap-»flags; 

457 uiov - msg.msg iov; 

458 msg.msg iov - iov; 

459 if (error = copyin((caddr t) uiov, (caddr.t) iov, 

460 (unsigned) (msg.msg iovlen * sizeof(struct iovec)))) 
461 goto done; 

462 if ((error = recvit(p, uap-»s, &msg, (caddr t) 0, retval)) == 0) ( 
463 msg.msg iov - uiov; 

464 error = copyout((caddr t) & msg, (caddr t) uap-»msg, sizeof (msg)); 
465 } 

466 done: 

467 if {iov != aiov) 

468 FREE(iov, M IOV); 

469 return (error); 

470 } 


uipc syscalls.c 
图 16-29 recvmsg 系 统 调用 


2. recvit 和 释放 缓存 


462-470 


recvit 收 完 数 据 后 ， 将 更 新 过 的 缓存 长 度 和 标志 的 msghqr 结 构 再 复制 到 进程 。 


如 果 分 配 了 一 个 更 大 的 ijovec 结 构 ， 则 返回 之 前 释放 它 。 


16.10 recvit?HZ 


recvit 闲 数 被 recv、recvfrom 和 recvmsg 调 用 ， 如 图 16-30 所 示 。 共 于 recv xxxi 


用 提供 的 msghdr 结 构 ，recvit 函 数 为 soreceive 的 处 理 谁 备 了 一 个 uio 结 构 。 


471-500 getsock 为 描述 符 s 返 回 一 个 file 结 构 ， 然后 recvit 初 始 化 uio 结 构 ， 该 结构 
描述 从 内 核 到 进程 之 间 的 一 次 数据 传送 。 通 过 对 iovec 数 组 中 的 msg_iovlen 字 段 求 和 得 到 
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传送 的 字 节 数 。 结 果 保 留 在 uio_resid 中 的 1en 中 。 、 





471 recvit(p, s, mp, namelenp, retsize) 
472 struct proc *p; 

473 int S; 

474 struct msghdr *mp; 

475 caddr t namelenp; 


476 int *retsize; 

477 ( 

478 struct file *fp; 

479 struct uio auio; 

480 struct iovec *iov; 

481 int i; 

482 int len, error; 

483 struct mbuf *from = 0, *control = 0; 
484 if (error = getsock(p->p_fd, s, &fp)) 
485 return (error); 

486 auio.uio_iov = mp->msg_iov; 

487 auio.uio iovcnt = mp->msg_iovlen; 

488 auio.uio segflg - UIO USERSPACE; 

489 auio.uio, rw = UIO,READ; 

490 auio.uio procp - p; 

491 auio.uio offset - 0; /* XXX */ 
492 auioc.uio resid = 0; 

493 iov = mp-»msg. iov; 

494 . for (i = 0; i < mp-»msg iovlen; i++, iov++) ( 
495 if (iov-»iov len < 0) 

496 return (EINVAL); 

497 if ((auio.uio resid += iov-»iov len) < 0) 
498 return (EINVAL); 

499 } 

500 len = auio.uio resid; 


图 16-30 recvit 函 数 : 初始 化 uio 结 构 


uipc syscalls.c 


uipc syscalls.c 


recvit 的 第 二 部 分 调用 soreceive， 并 且 将 结果 复制 到 进程 ， 如 图 16-31 所 示 。 





uipc_syscalls.c 
501 if (error = soreceive((struct socket *) fp->f_data, &from, &auio, 
502 (struct mbuf **) 0, mp-»msg control ? &control : (struct mbuf **) 0, 
503 &mp-»msg flags)) ( 
504 if. (auio.uio resid !- len && (error == ERESTART || 
505 „error == EINTR || error == EWOULDBLOCK)) 
506 error = 0; 
507 } 
508 if (error) 
509 goto out; 
510 *retsize - len - auio.uio resid; 
511 if (mp-»msg name) ( 
512 len - mp-»msg namelen; 
513 if (len <= 0 || from == 0) 
' 514 len = 0; 
515 else ( 
516 if (len > from-»m len) 
517 len = from-»m len; 
518 /* else if len « from-»m len ??? */ 
519 if (error - copyout(mtod(from, caddr t), 


图 16-31 recvit 函 数 : 返回 结果 
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520 (caddr t) mp-»msg name, (unsigned) len)) 

521 goto out; 

522 } 

523 mp-»msg, namelen = len; 

524 if (namelenp && 

525 (error = copyout((caddr t) & len, namelenp, sizeof(int)))) í 

526 goto out; 

527 ) 

528 } 

529 if (mp-»msg control) ( 

530 len - mp-»msg controllen; 

531 if (len <= 0 || control == 0) 

532 len = 0; 

533 else ( 

534 if (len >= control-»m, len) 

535 len - control-»m len; 

536 else 

537 mp-»msg flags |= MSG CTRUNC; 

538 error - copyout((caddr t) mtod(control, caddr t), 

539 (caddr, t) mp-»msg control, (unsigned) len); 

540 ) 

541 mp-»msg controllen = len; 

542 } 

543 out: 

544 if (from) 

545 m freem(from); 

546 if (control) 

547 i m_freem(control); 

548 return (error); 

549 } . 

uipc. syscalls.c 

图 16-31 ( 续 ) 


1. 调用 soreceive 


501-510 soreceive 实 现 从 插口 缓存 中 接收 数据 的 最 复杂 的 功能 。 传 送 的 字 节 数 保存 在 
*retsize 中 ， 并 且 返 回 给 进程 。 如 果 有 些 数 据 已 经 被 复制 到 进程 后 信号 出 现 或 阻塞 出 现 
(len 不 等 于 uio_resid)， 则 忽略 差错 ， 并 返回 已 经 传送 的 字 节 。 

2. 将 地 址 和 控制 信息 复制 到 进程 
511-542 如 果 进 程 传人 了 一 个 存放 地 址 或 控制 信息 或 两 者 都 有 的 缓存 ， 则 *ecvit 将 结果 
写 和 该 缓存 ， 并 且 根 据 soreceive 返 回 的 结果 调整 它们 的 长 度 。 如 果 缓 存 太 小 ， 则 地 址 信息 
可 能 被 截 掉 。 如 果 进 程 在 发 送 读 调 用 之 前 保留 缓存 的 长 度 ， 将 该 长 度 同 内 核 返 回 的 
namelenp 变 量 (或 sockaddr 结 构 的 长 度 域 ) 相 比较 就 可 以 发 现 这 个 差错 。 通 过 设置 
msg_flags 中 的 MSG_CTRUNC 标 志 来 报告 这 种 差错 ， 参 考 习 题 16-7。 

3. 释放 缓存 
543-549 从 out 开 始 ， 释 放 存 储 源 地 址 和 控制 信息 的 mbuf 缓 存 。 


16.11 soreceive 函 数 

soreceive 镶 数 将 数据 从 插口 的 接收 缓存 传送 到 进程 指定 的 缓存 。 某 些 协 议 还 提供 发 送 
者 的 地 址 ， 地 址 可 以 同 可 能 的 附加 控制 信息 一 起 返回 。 在 讨论 它 的 代码 之 前 ， 先 来 讨论 接收 
操作 ， 带 外 数据 和 播 口 接收 缓存 的 组 织 的 含义 。 
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图 16-32 列 出 了 在 执行 soreceive 期 间 内 核 知 道 的 一 些 标志 。 


MSG_DON4WaTT | 在 调用 期 问 不 等 待 资源 


MSG_OOB 接收 带 外 数据 而 不 是 正常 的 数据 
MSG PEEK Titio bn fe dt] A hi AS ica c dn 
MSG WAITALL 作 返 加 之 前 等 待 数 据 写 缓存 


图 16-32 recv xxx 系 统 调用 : 传递 给 内 核 的 标志 值 


recvmsg 是 唯一 返回 标志 字段 给 进程 的 读 系统 调用 。 在 其 他 的 系统 调用 中 ， 控 制 返回 给 
进程 之 前 ， 这 些 信息 被 内 核 丢 弃 。 图 16-33 列 出 了 在 msghar 中 recvmsg 能 设置 的 标志 。 


MSG CTRUNC | 控制 信息 的 长 度 大 十 提供 的 缓存 长 度 图 16-31 








MSG_EOR 收 到 的 数据 标志 -- 个 逻辑 记录 的 结束 图 16-48 
MSG_OOB 缓存 中 包含 带 外 数据 图 16-45 
MSG_TRUNC | 收 人 到 的 报 文 的 长 度 大 十 提供 的 缓存 长 度 | 图 16-51 








图 16-33 recvmsg 系 统 调用 : 内 核 返 回 的 msg_flag 值 


16.11.1 带 外 数据 


带 外 数据 (OOB) 在 不 同 的 协议 中 有 不 同 的 含义 。 一 般 来 说 ， 协 议 利 用 已 建立 的 通信 连接 
来 发 送 O0B 数 据 。OOB 数 据 可 能 与 已 发 送 的 正常 数据 同 序 。 插 口 层 支持 两 种 与 协议 无 关 的 机 
制 来 实现 对 OOB 数 据 的 处 理 : 标记 和 同步 。 本 章 讨 论 播 口 层 实现 的 抽象 的 OOB 机 制 。UDP 不 
支持 OOB 数 据 。TCP 的 紧急 数据 机 制 与 播 口 层 的 OOB 数 据 之 间 的 关系 在 TCP 一 章 中 描述 。 

发 送 进程 通过 在 sendxxx 调 用 中 设置 MSG_00B 标 志 将 数据 标记 为 O00B 数 据 。sosend 将 
这 个 信息 传递 给 插口 协议 ， 播 口 层 收 到 这 个 信息 后 ， 对 数据 进行 特殊 处 理 ， 如 加 快 发 送 数据 
或 使 用 另 一 种 排队 策略 。 

当 一 .个 协议 收 到 OOB 数 据 后 ， 并 不 将 它 放 进 插 口 的 接收 缓存 而 是 放 在 其 他 地 方 。 进 程 通过 
设置 recvxxx 调 用 中 的 MSG_00B 标 志 来 接收 到 达 的 O00B 数 据 。 另 一 种 方法 是 ， 通 过 设置 
so_ooBINLINE 播 口 选项 ( 见 第 17.3 节 )， 接 收 进程 可 以 要 求 协议 将 OOB 数 据 放 在 正常 的 数据 之 
内 。 当 so_ooBINLINE 被 设置 时 ， 协 议 将 收 到 的 OOB 数 据 放 进 正 常数 据 的 接收 缓存 。 在 这 种 
情况 下 ，MSsG_ooB 不 用 来 接收 OOB 数 据 。 读 调用 要 么 返回 所 有 的 正常 数据 ， 要 么 返回 所 有 的 
OOB 数 据 。 两 种 类 型 的 数据 从 来 不 会 在 一 个 输入 调用 的 输入 缓存 中 混淆 。 进 程 使 用 recvmsg 
来 接收 数据 时 ， 可 以 通过 检查 MSG_OOB 标 志 来 决定 返回 的 数据 是 正常 数据 还 是 OOB 数 据 。 

插口 层 支 持 OOB 数 据 和 正常 数据 的 同步 接收 ， 采 用 的 方法 是 允许 协议 在 正常 数据 流 中 标 
记 OOB 数 据 起 始点 。 接 收 者 可 以 在 每 一 个 读 系统 调用 的 后 面 ， 通 过 SIOCATMARK ioctlám 
令 来 检查 是 否 已 经 达到 O00OB 数 据 的 起 始点 。 当 接收 正常 的 数据 时 ， 插 口 层 确保 在 一 个 报 文中 
只 有 在 标记 前 的 正常 数据 才 会 收 到 ， 使 得 接收 者 接收 的 数据 不 会 超过 标记 。 如 果 在 接收 者 到 
达标 记 之 前 收 到 一 些 附加 的 OOB 数 据 ， 标 记 就 自动 向 前 移 。 


16.11.2 举例 
-图 16-34 说 明 两 种 接收 带 外 数据 的 方法 。 在 两 个 例 了 中 ， 字 节 A~I 作 为 正常 数据 接收 ， 字 
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节 J 作 为 带 外 数据 接收 ， 字 节 K~L 作 为 正常 数据 接收 。 接 收 进程 已 经 接收 了 A 之 前 (不 包括 A) 的 
所 有 数据 。 


处 理 接收 缓存 















cum 十 接收 缓存 
-— — s 
ENN OOCOOOCODADE 





标记 和 带 外 数据 
图 16-34 接收 带 外 数据 

在 第 一 个 例子 中 ， 进 程 能 够 正确 读 出 字 节 A~I， 或 者 如 果 设 置 MSG_O00B， 也 能 读 出 字 节 J。 
即使 读 请 求 的 长 度 大 于 9 个 字 节 (A~D， 插 日 层 也 只 返回 9 个 字 节 ， 以 免 超过 带 外 数据 的 同步 标 
记 。 当 读 出 字 节 I 后 ，SIOCATMARK 为 真 ， 对 于 到 达 带 外 数据 标记 的 进程 ， 不 必 读 出 字 市 J。 

在 第 二 个 例 了 中 ， 在 SIOCATMARK 为 真 时 只 能 读 字 节 A~1。 第 二 次 调用 读 字 市 J~L。 

在 图 16-34 中 ， 字 节 J 不 是 TCP 的 紧急 数据 指针 指示 的 字 节 。 在 本 例 中 ， 紧 急 指针 指向 的 是 
字 节 KK。 有 关 细 节 请 参考 第 29.7 节 。 


16.11.3 其 他 的 接收 操作 选项 


进程 能 够 通过 设置 标志 MSG_PEEK 来 查看 是 否 有 数据 到 达 。 而 数据 仍然 留 在 接收 队列 中 ， 
被 下 一 个 不 设置 MSG_PEEK 的 读 调 用 读 出 。 

标志 MSG_WaAITALL 指 示 读 调用 只 有 在 读 到 指定 数量 的 数据 后 才 返 回 。 即 使 soreceive 
中 有 一 些 数 据 可 以 返回 给 进程 ， 但 它 仍然 要 等 到 收 到 剩余 的 数据 后 才 返 回 。 

当 标 志 MSG_WAITALE 被 设置 后 ， soreceive 只 有 在 下 列 情况 下 可 以 在 没有 读 完 指定 长 
度 的 数据 时 返回 : 

。 连 接 的 读 通 道 被 关闭 ; 

。 插口 的 接收 缓存 小 于 所 读数 据 的 大 小 ; 

。 在 进程 等 待 剩余 的 数据 时 差错 出 现 ; 

。 带 外 数据 到 达 ; 或 

。 在 读 缓存 被 写 满 之 前 ， 一 个 逻辑 记录 的 结尾 出 现 。 

NFS 是 Net/3 中 唯一 使 用 MSG_WAITALL 和 MSG_DONTWAIT 标 志 的 软件 。 进 程 可 
以 不 通过 ioct1 或 fcnt1 来 选择 非 阻塞 的 LO 操作 而 是 设置 MSG_DONTWAIT 标 志 来 
实现 非 阻塞 的 读 系 统 调用 。 


16.11.4 接收 缓存 的 组 织 : 报 文 边界 
对 于 支持 报 文 边 界 的 协议 ， 每 一 个 报 文 存放 在 一 个 mbuf 链 中 。 接 收 缓存 中 的 多 个 报 文通 
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过 m_nextpkt 指 针 链 接 成 一 个 mbuf 队 列 ( 图 2-21)。 协 议 处 理 层 加 数据 到 接收 队列 ， 揪 口 层 从 
接收 队列 中 移 走 数据 。 接 收 缓存 的 高 水 位 标记 限制 了 存储 在 缓 在 中 的 数据 量 。 

如 果 PR_AToMIC 没 有 被 置 位 ， 协 议 层 尽 可 能 多 地 在 缓 在 中 存放 数据 ， 丢 弃 输 入 数据 中 的 
不 合 要 求 的 部 分 。 对 于 TCP， 这 就 意味 着 到 达 的 任何 数据 如 果 在 接收 窗口 之 外 都 将 被 丢弃 。 
如 果 PR_ATOMIC 被 置 位 ， 缓 存 必须 能 够 容纳 整个 报 文 ， 否 则 协议 层 将 丢弃 整个 报 文 。 对 于 
UDP 而 言 ， 如 果 接 收 缓存 已 满 ， 则 进入 的 数据 报 都 将 被 丢弃 ， 缓 存 满 的 原因 可 能 是 进程 读数 
据 报 的 速度 不 够 快 。 

PR_ADDR 被 置 位 的 协议 使 用 sbappendaddr 构 造 一 个 mbuf 链 ， 并 将 其 加 入 到 接收 队列 。 
缓存 链 包含 一 个 存放 报 文 源 地 址 的 mbuf，0 个 或 更 多 的 控制 mbuf， 后 面 跟着 0 个 或 更 多 的 包含 
数据 的 mbuf。 

对 于 SOCK_SEQPACKET 和 SOCK_RDM 协 议 ， 它 们 为 每 一 个 记录 建立 一 个 mbuf 链 。 如 果 
PR_ATOMIC 被 置 位 ， 则 调用 sbappendrecord， 将 记录 加 到 接收 缓存 的 尾部 。 如 果 
PR_ATOMIC 没 有 被 置 位 (OSI 的 TP4)， 则 用 sbappendrecord 产 生 一 个 新 的 记录 ， 其 余 的 数 
据 用 sbappend 加 到 这 个 记录 中 。 


假定 PR_ATOMIC 就 是 表示 缓存 的 组 织 结构 是 不 正确 的 。 例 如 ，TP4 中 并 没有 
PR ATOMIC, 而 是 用 M_EOR 标 志 来 支持 记录 边界 。 


图 16-35 说 明了 由 三 个 mbuf 链 ( 即 三 个 数据 报 ) 组 成 的 UDP 接 收 缓存 的 结构 。 每 一 个 mbuf 中 
都 标 有 m_type 的 值 。 

在 图 16-35 中 ， 第 三 个 数据 报 中 有 一 些 控制 信息 。 三 个 UDP 播 口 选项 能 够 导致 控制 信息 被 
存 和 人 接收 缓存 。 详 细 情 况 参考 图 22-5 和 图 23-7。 


socket{} 





图 16-35 包含 三 个 数据 报 的 UDP 接收 缓存 
对 于 PR_ATOMIC 协 议 ， 当 收 到 数据 时 ， sb_l1owat 被 忽略 。 当 没有 设置 PR_ATOMIC 时 ， 
sb_1lowat 的 值 等 于 读 系统 调用 返回 的 最 小 的 字 节 数 。 但 也 有 一 些 例外 ， 如 图 16-41 所 示 。 


16.11.5 接收 缓存 的 组 织 : 没有 报 文 边界 
当 协 议 不 需 维护 报 文 边界 ( 即 SOCK_STREAM 协 议 ， 如 TCP) 时 ， 通 过 sbappend 将 进入 的 
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数据 加 到 缓存 中 的 最 后 一 个 mbuf 链 的 尾部 。 如 果 进 入 的 数据 长 度 大 于 缓存 的 长 度 ， 则 数据 将 
被 截 掉 ，sb_1lowat 为 一 个 读 系统 调用 返回 的 字 节 数 设置 了 一 个 下 限 。 
图 16-36 说 明了 仅仅 包含 正常 数据 的 TCP 接 收 缓存 的 结构 。 





图 16-36 TCP 的 so_rcv 缓 存 


16.11.6 控制 信息 和 带 外 数据 


不 像 TCP， 一 些 流 协议 支持 控制 信息 ， 并 且 调 用 sbappendcontrol 将 控制 信息 和 相关 
数据 作为 一 个 新 的 mbuf 链 加 入 接收 缓存 。 如 果 协 议 支持 内 含 00B 数 据 ， 则 调用 
sbinsertoob 播 入 一 个 新 的 mbuf 链 到 任何 包含 OOB 数 据 的 mbuf 链 之 后 ， 但 在 任何 包含 正常 
数据 的 mbuf 链 之 前 。 这 一 点 确保 进入 的 OOB 数 据 总 是 排 在 正常 数据 之 前 。 

图 16-37 说 明 包含 控制 信息 和 OOB 数 据 的 接收 缓存 的 结构 。 


Zocket 0) 





图 16-37 带 有 控制 信息 和 OOB 数 据 的 so_rcv 缓 存 
Unix 域 流 协 议 支持 控制 信息 ，OSI TP4 协 议 支 持 MT_OOBDRATRA mbuf。TCP 既 不 支持 控制 
信息 ， 也 不 支持 MT_ooBDaATR 形 式 的 带 外 数据 。 如 果 TCP 的 紧急 指针 指向 的 字 节 存储 在 数据 
内 (SO_OoOBINLINE 被 设置 )， 那 么 该 字 节 是 正常 数据 而 不 是 OOB 数 据 。TCP 对 紧急 指针 和 相 
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关 数 据 的 处 理 在 第 29.7 节 中 讨论 。 
16.12 soreceive 代 码 


我 们 现在 有 足够 的 背景 信息 来 详细 讨论 soreceive 函 数 。 在 接收 数据 时 ，soreceive 
必须 检查 报 文 边界 ， 处 理 地 址 和 控制 信息 以 及 读 标志 所 指定 的 任何 特殊 操作 (图 16-32)。 一 般 
来 说 ，soreceive 的 一 次 调用 只 处 理 一 个 记录 ， 并 且 尽 可 能 返回 要 求 读 的 字 节 数 。 图 16-38 
显示 了 soreceive 国 数 的 大 概 情 况 。 


uipc socket.c 





439 soreceive(so, paddr, uio, mp0, controlp, flagsp) 
440 struct socket *so; 

441 struct mbuf **paddr; 

442 struct uio *uio; 

443 struct mbuf **mp0; 

444 struct mbuf **controlp; 


445 int *flagsp; 

446 ( 

447 struct mbuf *m, **mp; 

448 int flags, len, error, s, offset; 
449 struct protosw *pr = so-»So proto; 
450 Struct mbuf *nextrecord; 

451 int moff, type; 

452 int orig resid - uio-»uio resid; 
453 mp = mp0; 

454 if (paddr) 

455 *paddr - 0; 

456 if (controlp) 

457 *controlp - 0; 

458 if (flagsp) 

459 flags = *flagsp & "MSG EOR; 

460 else 

461 flags - 0; 


/* MSG_OOB processing and */...-: 
/* implicit connection confirmata */ 


483 restart: 


484 if (error = sblock(&so-»so rcv, SBLOCKWAIT(flags))) 
485 return (error); 

486 S - splnet(); 

487 m = So-»Sso rcv.sb mb; 


/* if necessary, wait for data to arrive */ 


542 dontblock: 


543 if (uio-»uio procp) 
544 uio-»uio procp-»p stats-»p ru.ru,msgrcv-*; 
545 nextrecord = m-»m nextpkt; 


/* process address and control information */ 


591 if (m) ( 
图 16-38 soreceive 国 数 : 概述 
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592 if ((flags & MSG PEEK) == 0) 
593 m-»m nextpkt - nextrecord; 
594 type - m-»m type; 

595 if (type -- MT OOBDATA) 

596 flags |= MSG_OOB: 

597 ) 


/* procese data */ 


693 } /* while more data and more space to fill */ 


715 release: 


716 sbunlock(&so-»-so rcv); 
717 splx(s); 

718 return (error); 

719 ) 





uipc sockel.c 
图 16-38 (5) 


439-446 soreceive 有 六 个 参数 。 指 向 插 串 的 so 指针 。 指 向 存放 接收 地 址 信息 的 mbuf 缓 
在 的 指针 *paddr。 如 果 mp0 指 向 一 个 mbuf 链 ， 则 soreceive 将 接收 缓存 中 的 数据 传送 到 
*mp0 指 向 的 mbuf 缓 存 链 。 在 这 种 情况 下 ，u io 结 构 中 只 有 用 来 记 数 的 uio_resid 字 段 是 有 
意义 的 。 如 果 mp0 为 空 ， 则 soreceive 将 数据 传送 到 uio 结 构 中 指定 的 缓存 。*controlp 指 
向 包含 控制 信息 的 mbuf 缓 存 。soreceive 将 图 16-33 中 描述 的 标志 存放 在 *flagsp。 
447-453 ”soreceive 一 开始 将 pr 指向 插口 协议 的 交换 结构 ， 并 将 uio_resid( 接 收 请 求 的 
大 小 ) 保 存在 orig_resiq。 如 果 将 控制 或 地 址 信息 从 内 核 复制 到 进程 ， 则 将 orig_resigd 清 
0。 如 果 复 制 的 是 数据 ， 则 更 新 uio_resid。 不 管 哪 一 种 情况 ，orig_resid 都 不 可 能 等 于 
uio_resid。soreceive 国 数 的 最 后 处 理 要 利用 这 一 事实 (图 16-51)。 

454-461 在 这 一 段 代 码 中 ， 首 先 将 *paddr 和 *controlp 置 空 。 在 将 MSG_EOR 标 志清 0 后 ， 
将 传 给 soreceive 的 *flagsp 的 值 保存 在 fl1ags 中 (习题 16.8)。flagsp 是 一 个 用 来 返回 结 
果 的 参数 ， 但 是 只 有 recvmsg 系 统 调用 才能 收 到 结果 。 如 果 f1lagsp 为 空 ， 则 将 flags 清 0。 
483-487 在 访问 接收 缓存 之 前 ， 调 用 sblock 给 缓存 加 锁 。 如 果 flags 中 没有 设置 
MSG_DONTWAIT 标 志 ， 则 soreceive 必 须 等 待 加 锁 成 功 。 


支持 在 内 核 中 从 NES 发 调用 到 插口 层 带 来 了 另 一 个 页 作用 。 


挂 起 协议 处 理 ， 使 得 在 检查 缓存 过 程 中 soreceive 不 被 中 断 。m 是 接收 缓存 中 的 第 一 个 
mbuf 链 上 的 第 一 个 mbuf。 

1. 如 果 需 要 ， 等 待 数据 
488-541 soreceive 要 检查 几 种 情况 ， 并 且 如 果 需 要 ， 它 可 能 要 等 待 接收 更 多 的 数据 才 继 
续 往 下 执行 。 如 果 soreceive 在 这 里 进入 睡眠 状态 ， 则 在 它 醒 来 后 跳 转 到 restart 查 看 是 
否 有 足够 的 数据 到 达 。 这 个 过 程 一 直 继 续 ， 直 到 收 到 足够 的 数据 为 止 。 
542-545 当 soreceive 已 收 到 足够 的 数据 来 满足 读 请 求 所 要 求 的 数据 量 时 ， 就 跳 转 到 
dontblock。 并 将 指向 接收 缓存 中 的 第 二 个 mbuf 链 的 指针 保存 在 nextrecord 中 。 
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2. 处 理 地 址 和 控制 信息 
542-545 在 传送 数据 之 前 ， 首 先 处 理 地 址 信息 和 控制 信息 。 

3. 建立 数据 传送 
591-597 因为 只 有 OOB 数 据 或 正常 数据 是 在 一 次 soreceive 调 用 中 传送 ， 这 段 代 码 的 功 
能 就 是 记 住 队列 前 端的 数据 的 类 型 ， 这 样 在 类 型 改变 时 ，soreceive 能 够 停止 传送 。 

4. 传送 数据 循环 
598-692 只 要 缓存 中 还 有 mbuf (m 不 空 )， 请 求 的 数据 还 没有 传送 完毕 (uio_resiq>0), H. 
没有 差错 出 现 ， 本 循环 就 不 会 退出 。 

退出 处 理 
693-719 剩余 的 代码 主要 是 更 新 指针 、 标 志和 偏 移 ; 释放 播 口 缓存 锁 ; 使 能 协议 处 理 并 返 
回 。 

图 16-39 说 明 soreceive 对 OOB 数 据 的 处 理 。 


uipc socket.c 
462 if (flags & MSG OOB) ( 
463 m = m get (M WAIT, MT DATA); 
464 error - (*pr-»pr usrreq) (so, PRU RCVOOB, 
465 m, (struct mbuf *) (flags & MSG PEEK), (struct mbuf *) 0); 
466 if (error) 
467 goto bad; 
468 do ( 
469 error - uiomove (mtod(m, caddr t), 
470 (int) min(uio-»uio resid, m-»m len), uio); 
471 m - m free(m); 
472 ) while (uio-»uio resid && error == 0 && m); 
473 bad: 
474 if (m) 
475 m freemí(m); 
476 return (error); 
477 } . 

uipc socket.c 





图 16-39 soreceive 国 数 : 带 外 数据 


5. 接收 OOB 数 据 
462-477 因为 O00B 数 据 不 存放 在 接收 缓存 中 ， 所 以 soreceive 为 其 分 配 一 块 标准 的 mbuf， 
并 给 协议 发 送 PRU_RCVOOB 请 求 。while 循 环 将 协议 返回 的 数据 复制 到 vio 指 定 的 缓存 中 。 复 
制 完 成 后 ，soreceive 返 回 0 或 差错 代码 。 

对 于 PRU_RCVOOB 请 求 ，UDP 协 议 总 是 返回 EOPNOTSUPP。 关 于 TCP 的 紧急 数据 的 处 理 
的 详细 情况 参考 第 30.2 节 。 图 16-40 说 明 soreceive 对 连接 信息 的 处 理 。 





uipc sockel.c 
478 if (mp) m 
479 *mp - (struct mbuf *) 0; 
480 if (so-»so state & SS, ISCONFIRMING && uio-»uio.resid) 
481 (*pr-»pr usrreq) (so, PRU RCVD, (struct mbuf *) 0, 
482 (struct mbuf *) 0, (struct mbuf *) 0); 
uipc socket.c 
图 16-40 ”soreceive 函 数 : 连接 信息 
6. 连接 证 实 


478-482 ”如 果 返 回 的 数据 存放 在 mbuf 链 中 ， 则 将 *mp 初 始 化 成 空 。 如 果 插 口 处 于 
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SO_ISCONFIRMING 状 态 ，PRU_RCVD 请 求 告 知 协 议 进 程 想 要 接收 数据 。 


SO_ISCONFIRMING 状 态 仅 用 于 OSI 的 流 协 议 ，TP4。 在 TP4 中 ， 直 到 一 个 用 户 
级 进程 通过 发 送 或 接收 数据 的 方式 来 证 实 连 接 ， 该 连接 才 被 认为 已 完全 建立 。 在 通 
过 调用 getpeername 来 获取 对 方 的 身份 后 ， 进 程 可 能 调用 shutdown 或 close 来 拒 
绝 连接 。 
图 16-38 显 示 了 图 16-41 中 的 代码 在 检查 接收 缓存 时 ， 接 收 缓存 被 加 锁 。soreceive 的 这 
部 分 代码 的 功能 是 查看 接收 缓存 中 的 数据 是 否 能 满足 读 系 统 调用 的 要 求 。 


188 7. uipc  socket.c 
489 * If we have less data than requested, block awaiting more 

490 * (subject to any timeout) if: 

491 * 1. the current count is less than the low water mark, or 

492 * 2. MSG WAITALL is set, and it is possible to do the entire 

493 * receive operation at once if we block {resid <= hiwat). 

494 * 3. MSG DONTWAIT is not set 

495 * 

496 * If MSG WAITALL is set but resid is larger than the receive buffer, 
497 * we have to do the receive in sections, and thus risk returning 

498 * a short count if a timeout or signal occurs after we start. 

499 */ 

500 if (m == 0 || ((flags & MSG DONTWAIT) == 0 && 

501 SO-»SsO rcCv.sb cc < uio-»uio resid) && 

502 (so-»so rcv.sb cc < so-»so rcv.sb lowat |l 

503 ((flags & MSG, WAITALL) && uio-»uio resid <= so-»so,rcv.sb hiwat)) && 
504 m-»m nextpkt -- 0 && (pr-»pr flags & PR ATOMIC) -- 0) ( . 

一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 uipc, socket.c 


图 16-41 soreceive 函 数 : 数据 够 吗 ? 


7. 读 调用 的 请 求 能 满足 吗 ? 
488-504 一 般 情况 下 , soreceive 要 等 待 直到 接收 缓存 中 有 足够 的 数据 来 满足 整个 读 请 求 。 
但 是 ， 有 几 种 情况 可 能 导致 差错 或 返回 比 读 请 求 要 求 少 的 数据 。 
。 接 收 缓存 没有 数据 (m 等 于 0)。 
。 缓 存 中 的 数据 不 能 满足 读 请 求 要 求 的 数量 (sb_cc<uio_resid) 并 且 没 有 设置 
MSG_DONTWAIT 标 志 ， 最 少 的 数据 也 得 不 到 (sb_cc<sb_lowat)， 且 当 该 链 到 达 时 更 
多 的 数据 能 够 加 到 链 的 后 面 (m_nextpkt 等 于 0， 且 没有 设置 PR_ATOMIC)。 
。 缓 存 中 的 数据 不 能 满足 读 请 求 要 求 的 数量 ， 能 得 到 最 少 的 数据 量 ， 数 据 能 够 加 到 链 中 来 ， 
但 是 MSG_WAITALL 指 示 soreceive 必 须 等 待 直到 缓存 中 的 数据 能 满足 读 请 求 。 
如 果 最 后 一 种 情况 的 条 件 能 够 满足 ， 但 是 因为 读 请 求 的 数据 太 大 以 至 如 果 不 阻塞 等 待 就 
不 能 满足 (uio_resid< sb_hiwat)，soreceive 就 不 等 待 而 是 继续 往 下 执行 。 
如 果 接 收 缓存 有 数据 ， 并 且 设 置 了 MSG_DONTWAIT， 则 sorecevie 不 等 待 更 多 的 数据 。 
有 几 种 原因 使 得 等 待 更 多 的 数据 是 不 合适 的 。 在 图 16-42 中 ，soreceive 要 么 检查 三 种 
情况 ， 然 后 返回 ; 要 么 等 待 更 多 的 数据 到 达 。 
8. 等 待 更 多 的 数据 吗 ? 
505-534 在 此 处 ，soreceive 已 经 决定 等 待 更 多 的 数据 来 满足 读 请 求 。 在 等 待 之 前 ， 它 需 
要 检查 以 下 几 种 情况 : 
505-512 。 如 果 插 口 处 于 差错 状态 ， 且 缓存 为 空 (m 为 空 )， 则 soreceive 返 回 差错 代码 。 如 
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果 有 差错 ， 但 是 接收 缓存 中 有 数据 (m 非 空 )， 则 返回 缓存 的 数据 ; 当下 一 个 读 调用 来 时 ， 如 果 
没有 数据 ， 就 返回 差错 。 如 果 设 置 了 MSG_PEEK， 就 不 清除 差错 ， 因 为 设置 了 MSG_PEEK 的 
读 调 用 不 能 改变 插口 的 状态 。 

513-518 。 如 果 连 接 的 读 通道 已 经 被 关闭 并 且 数 据 仍 在 接收 缓存 中 ， 则 sosenq 不 等 待 而 是 
将 数据 返回 给 进程 (在 dontblock 的 情况 下 )。 如 果 接 收 缓存 为 空 ， 则 soreceive 跳 转 到 
release， 读 系统 调用 返回 0， 表 示 连 接 的 读 通道 已 经 被 关闭 。 

519-523 。 如 果 接 收 缓存 中 包含 带 外 数据 或 出 现 一 个 逻辑 记录 的 结尾 ， 则 soreceive 不 等 
待 ， 而 是 跳 转 到 dontblock。 

524-528 。 如 果 协 议 请 求 中 的 连接 不 存在 ， 则 设置 差错 代码 为 ENOTCONN， 函 数 跳 转 到 
release, 

529-534 * 如 果 读 请 求 读 0 字 节 或 插口 是 非 阻 塞 的 ， 则 函数 跳 转 到 release， 并 返回 0 或 
EWOULDBLOCK( 后 一 种 情况 )。 


505 if (so-»so error) ( uipc. socket.c 
506 if (m) 

507 goto dontblock; 

508 error = So-»so error; 

509 if ((flags & MSG PEEK) == 0) 

510 So-»8S0o error = 0; 

511 goto release; 

512 } 

513 if (so-»so state & SS CANTRCVMORE) { 

514 if (m) 

515 goto dontblock; 

516 else 

517 goto release; 

518 ) 

519 for (; m; m = m-»m next) 

520 if (m-»m type == MT OOBDATA || (m-»m flags & M EOR)) ( 
521 m = So-»Sso rcv.sb mb; 

522 goto dontblock; 

523 } 

524 if ((so-»so state & (SS ISCONNECTED | SS ISCONNECTING)) == 0 && 
525 (so-»so proto-»pr flags & PR,CONNREQUIRED)) ( 

526 error - ENOTCONN; 

527 goto release; 

528 } 

529 if (uio-»uio resid == 0) 

530 goto release; 

531 if ((so-»so state & SS, NBIO) || (flags & MSG, DONTWAIT)) ( 
532 error - EWOULDBLOCK; 

533 goto release; 

534 } 

535 sbunlock (&kso->so_rcv); 

536 error = sbwait(&so-»so rcv); 

537 Splx(s); 

538 if (error) 

539 return (error); 

540 goto restart; 

541 ) uipc, socket.c 





图 16-42 soreceive 国 数 : 等 待 更 多 的 数据 吗 ? 
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9. 是 ， 等 待 更 多 的 数据 
535-541 此 处 soreceive 已 决定 等 待 更 多 的 数据 ， 并 且 有 理由 这 么 做 ( 即 ， 将 有 数据 到 达 )。 
在 进程 调用 sbwait 进 入 睡眠 期 间 ， 缓 存 被 解锁 。 如 果 因 为 差错 或 信号 出 现 使 得 sbwait 返 回 ， 
则 soreceive 返 回 相应 的 差错 ; 否则 soreceive 跳 转 到 restart， 查 看 接收 缓存 中 的 数据 
是 否 能 够 满足 读 请 求 。 

同 sosend 中 一 样 ， 进 程 能 够 利用 SO_RCVTIMEO 插 口 选 项 为 sbwait 设 置 一 个 接收 定时 
器 。 如 果 在 数据 到 达 之 前 定时 器 超时 ， 则 sbwait 返 回 EWOULDBLOCK。 

定时 器 并 不 能 总 令 人 满意 。 因 为 当 插口 上 有 活动 时 ， 定 时 器 每 次 都 被 重 置 。 如 

果 在 一 个 超时 间隔 内 至 少 有 一 个 字 节 到 达 ， 则 定时 器 从 来 不 会 超时 ， 一 直到 设置 了 

更 长 的 超时 值 的 读 系统 调用 返回 。sb_timeo 是 一 个 不 活动 定时 器 ， 并 不 要 求 超 时 

ALR, 但 为 了 满足 读 系 统 调 用 ， 超 时 值 的 上 限 可 能 是 必要 的 。 

在 此 处 ，soreceive 准 备 从 接收 缓存 中 传送 数据 。 图 16-43 说 明了 地 址 信息 的 传送 。 


uipc_socket.c 





542 dontblock: 


543 if (uio-»uio procp) 

544 uio-»uio procp-»p stats-»p ru.ru,msgrcv-*s; 
545 nextrecord = m-»m nextpkt; 

546 if (pr-»pr flags & PR ADDR) ( 

547 orig resid - 0; 

548 if (flags & MSG PEEK) ( 

549 if (paddr) 

550 *paddr = m copy (m, 0, m-»m len); 
551 m - m-»m next; 

552 ) else ( 

553 sbfree(&so-»so rcv, m); 

554 if (paddr) ( 

555 *paddr = m; 

556 So-»so rcv.sb mb = m-»m next; 
557 m-»m, next = 0; 

558 m = So-»So rcv.sb, mb; 

559 ) else { 

560 MFREE(m, so-»so rcv.sb mb); 
561 . m = So-»so rcv.sb mb; 

562 ) 

563 } 

564 } 


uipc_socket.c 





图 16-43 soreceive 国 数 : 返回 地 址 信息 


10. dontblock 
542-545 nextrecord 指 向 接收 缓存 中 的 下 一 条 记录 。 在 soreceive 的 后 面 ， 当 第 一 个 
链 被 丢弃 后 ， 该 指针 被 用 来 将 剩余 的 mbuf 放 入 插口 缓存 。 

11. 返回 地 址 信息 
546-564 如 果 协 议 提 供 地 址 信息 ， 如 UDP， 则 将 从 mbuf 链 中 删除 包含 地 址 的 mbuf， 并 通过 
xpaddr 返 回 。 如 果 paddzr 为 空 ， 则 地 址 被 丢弃 。 

在 soreceive 中 ， 如 果 设 置 了 MSG_PEEK， 则 数据 仍 留 在 缓存 中 。 

图 16-44 中 的 代码 处 理 缓存 中 的 控制 mbuf。 

12. 返回 控制 信息 
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565-590 每 一 个 包含 控制 信息 的 mbuf 都 将 从 缓存 中 删除 (如 果 设 置 了 MSG_PEEK， 则 不 删除 
而 是 复制 )， 并 连 到 *controlp。 如 果 controlp 为 空 ， 则 丢弃 控制 信息 。 


565 while (m && m->m type == MT_CONTROL && error == 0) { uipc. socket.c 
566 if (flags & MSG PEEK) ( 

567 if (controlp) 

568 *controlp - m copy(m, 0, m-»m len); 

569 m = m-»m,.next; 

570 ) else ( 

571 Sbfree(&so-»so rcv, m); 

572 if (controlp) ( 

573 if (pr-»pr. domain-»dom, externalize && 

574 mtod(m, struct cmsghdr *)-»cmsg type == 

575 SCM RIGHTS) 

576 error - (*pr-»pr domain-»dom externalize) (m); 
577 *controlp = m; 

578 SO-»SO rcv.sb mb = m-»m next; 

579 m-»m, next = 0; 

580 m = So-»80, rcv.sgb mb; 

581 ) else ( 

582 MFREE(m, so-»So rcv.sb mb); 

583 m = so-»so rcv.sb mb; 

584 ) 

585 } 

586 if (controlp) ( 

587 orig resid = 0; 

588 controlp - &(*controlp)-»m next; 

589 } 

590 } uipc_socket.c 


图 16-44 soreceive 函 数 : 处 理 控 制 信 息 


如 果 进 程 准备 接收 控制 信息 ， 则 协议 定义 了 一 个 aom_externalize 国 数 ， 一 旦 控制 信 
息 mbuf 中 包含 SCM_RIGHTS( 访 问 权 限 )， 就 调用 dom_externalize 函 数 。 该 函数 执行 内 核 
中 所 有 接收 访问 权限 的 操作 。 只 有 Unix 域 协议 支持 访问 权限 ， 有 关 细 节 在 第 7.3 节 已 讨论 过 。 
如 果 进 程 不 准备 接收 控制 信息 (controlp 为 空 )， 则 丢弃 控制 mbuf。 

直到 处 理 完 所 有 包含 控制 信息 的 mbuf 或 出 现 差 错时 ， 循 环 才 退出 。 

对 于 Unix 协 议 域 ，dom_externalize 函 数 通过 修改 接收 进程 的 文件 描述 符 表 

来 实现 文件 描述 符 的 传送 。 

处 理 完 所 有 的 控制 mbuf 后 ，m 指 向 链 中 的 下 一 个 mbuf。 如 果 在 地 址 或 控制 信息 的 后 面 ， 
链 中 没有 其 他 的 mbuf， 则 m 为 空 。 例 如 ， 当 一 个 长 度 为 0 的 数据 报 进 入 接收 缓存 时 就 会 出 现 这 
种 情况 。 图 16-45 说 明了 soreceive 准 备 从 mbuf 链 中 传送 数据 。 


591 if (m)( uipc, socket.c 
592 if ((flags & MSG PEEK) == O0) 
593 m-»m,nextpkt = nextrecord; 
594 type - m-»m type; 
595 if (type -- MT OOBDATA) 
596 flags |= MSG, OOB; 
597 ) 
uipc, socket.c 





图 16-45 soreceive 国 数 : 准备 传送 mbuf 
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13. 准备 传送 数据 
591-597 处理 完 控制 mbuf 后 ， 链 中 应 该 只 剩 下 正常 数据 、 带 外 数据 mbuf 或 没有 任何 mbuf。 
如 果 m 为 空 ， 则 soreceive 完 成 处 理 ， 控 制 跳 到 whi1e 循 环 的 底部 。 如 果 m 不 空 ， 所 有 剩余 
的 mbuf 链 (nextrecord) 都 将 重新 连接 到 m， 并 将 下 一 个 mbuf 的 类 型 赋 给 type。 如 果 下 一 个 
mbuf 包 含 O0B 数 据 ， 则 设置 [1ags 中 的 MSG_00B 标 志 ， 并 在 最 后 返回 给 进程 。 因 为 TCP 不 支 
持 MT_OOBDATA 形 式 的 带 外 数据 ， 所 以 MSG_.00B 不 会 返回 给 TCP 插 口上 的 读 调用 。 

图 16-47 显 示 了 传送 mbuf 循 环 的 第 一 部 分 。 图 16-46 列 出 了 循环 中 更 新 的 变量 。 


moff 当 MSG_PEEK 被 置 位 时 ， 将 被 传送 的 下 一 个 字 节 的 偏 移 位 置 
offset 当 MSG_PEEKR 被 置 位 时 ，OOB 标 记 的 偏 移 位 置 

还 末 传 送 的 字 节 数 

从 本 mbuf 中 将 要 传送 的 字 节 数 ; 如 果 uio_resid 比 较 小 或 靠 OOB 标 记 比 较 近 ， 则 1en 


可 能 小 十 m_ len. 

























uio, resid 


图 16-46 _ soreceive 国 数 : 循环 内 的 变量 





598 moff = 0; uipc socket 
599 offset = 0; 

600 while (m && uio-»uio resid > 0 && error == 0) { 

601 . if (m-»m type == MT OOBDATA) ( 

602 if (type !- MT OOBDATA) 

603 break; 

604 ) else if (type -- MT OOBDATA) 

605 break; 

606 So-»so state &- ^SS RCVATMARK; 

607 len = uio-»uio resid; 

608 if (so-»so oobmark && len > so-»so oobmark - offset) 

609 len = so-»so.oobmark - offset; 

610 if (len » m-»m len - moff) 

611 len = m-»m len - moff; 

612 /* 

613 * If mp is set, just pass back the mbufs. 

614 * Otherwise copy them out via the uio, then free. 

615 * Sockbuf must be consistent here (points to current mbuf, 
616 * it points to next record) when we drop priority; 

617 * we must note any additions to the sockbuf when we 

618 * block interrupts again. 

619 */ 

620 if (mp == 0) { 

621 splx (s); 

622 error = uiomove(mtod(m, caddr t) + moff, (int) len, uio); 
623 S = splnet():; 

624 ) eise 

625 uio-»uio resid -= len; 


uipc socket.c 
图 16-47 soreceivetK E: uiomove 
598-600 ” ”while 循环 的 每 一 次 循环 中 ， 一 个 mbuf 中 的 数据 被 传送 到 输出 链 或 uio 缓 存 中 。 
一 旦 链 中 没有 mbuf 或 进程 的 缓存 已 满 或 出 现 差错 ， 就 退出 循环 。 
14. 检查 OOB 和 正常 数据 之 前 的 变换 
600-605 ”如 果 在 处 理 mbuf 链 的 过 程 中 ，mbuf 的 类 型 发 生变 化 ， 则 立即 停止 传送 ， 以 确保 正 
常数 据 和 带 外 数据 不 会 混合 在 一 个 返回 的 报 文中 。 但 是 ， 这 种 检查 不 适用 于 TCP。 
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15. 更 新 OOB 标 记 
606-611 计算 当前 字 节 到 oobmark 之 间 的 长 度 来 限制 传送 的 大 小 ， 所 以 cobmark 的 前 一 个 
字 节 为 传送 的 最 后 一 个 字 节 。 传 送 的 大 小 同时 还 要 受 mbuf 大 小 的 限制 。 这 段 代码 同样 适用 于 
TCP, 
612-625 如 果 将 数据 传送 到 uio 缓 存 ， 则 调用 uiomove。 如 果 数 据 是 作为 一 个 mbuf 链 返回 
的 ， 则 更 新 uio_resiqd 的 值 ， 使 其 等 于 传送 的 字 节 数 。 

为 了 避免 在 传送 数据 过 程 中 协议 处 理 挂 起 的 时 间 大 长 ， 在 调用 uiomove 过 程 中 使 能 协议 
处 理 。 所 以 ， 在 uiomove 运 行 的 过 程 中 ， 接 收 缓存 中 可 能 会 出 现 新 的 数据 。 

图 16-48 中 描述 的 代码 说 明 调 整 指针 和 偏 移 准 备 传 送 下 一 个 mbuf。 


- uipc socket.c 
626 if (len == m-»m len - moff) ( 
627 if (m-»m flags & M EOR) 
628 flags |= MSG EOR; 
629 if (flags & MSG PEEK) { 
630 m - m-»m next; 
631 moff = 0; 
632 ) else ( 
633 nextrecord - m-»m nextpkt; 
634 Sbfree(&so-»so rcv, m); 
635 if (mp) ( 
636 *mp - m; 
637 mp - &m-»m next; 
638 SO-»SO rcv.sb mb = m = m-»m next; 
639 *mp - (struct mbuf *) 0; 
640 ) else ( 
641 MFREE(m, so-»so rcv.sb mb); 
642 m - so-»so rcv.sb mb; 
643 } 
644 if (m) 
645 m-»m, nextpkt - nextrecord; 
646 ) ` 
647 } else { 
648 if (flags & MSG_PEEK) 
649 moff += len; 
650 else { 
651 if (mp) 
652 *mp - m copym(m, 0, len, M WAIT); 
653 m-»m data «- len; 
654 m-»m len -- len; 
655 SO-»SO rcv.sb cc -= len; 
656 ) 
$57 j uipc_socket.c 


图 16-48 soreceiveift: 更 新 缓存 


16. mbuf 处 理 完毕 了 吗 
626-646 ”如 果 mbuf 中 的 所 有 字 节 都 已 传送 完毕 ， 则 必须 丢弃 mbuf 或 将 指针 向 前 移 。 如 果 
mbuf 中 包含 了 一 个 逻辑 记录 的 结尾 ， 还 应 设置 MSG_EOR。 如 果 将 MSG_PEEK 置 位 ， 则 
so_receive 跳 到 下 一 个 缓存 。 在 没有 将 MSG_PEBEK 置 位 的 情况 下 ， 如 果 数 据 已 通过 
uiomove 复 制 完成 ， 则 丢弃 这 块 缓 在 ; 或 者 如 果 数 据 是 作为 一 个 mbuf 链 返回 ， 则 将 缓存 添加 
到 mp 中 。 

图 16-49 包 含 处 理 OOB 偏 移 和 MSG_EOR 的 代码 段 。 
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658 if (so-»so, oobmark) ( uipc. Socket.c 
659 if ((flags & MSG PEEK) == 0) ( 
660 SO-»SO Oobmark -= len; 
661 if (so-»so oobmark == 0) ( 
662 SO->SOC_State |= SS RCVATMARK; 
663 break; 
664 ) 
665 ) else ( 
666 offset += len; 
667 if (offset == so-»so,oobmark) 
668 break; 
669 } 
670 } 
671 if (flags & MSG, EOR) 
672 break; 
uipc  socket.c 


图 16-49 soreceiveifü: 带 外 数据 标记 


17. 更 新 OOB 标 记 
658-670 如 果 带 外 数据 标志 等 于 非 0， 则 将 其 减 去 已 传送 的 字 节 数 。 如 果 已 到 达标 记 处 ， 则 
将 SS_RCVRATMARK 置 位 ，soreceive 跳 出 while 和 循环。 如 果 没 有 将 MSG_PEEK 置 位 ， 则 更 
新 offset， 而 不 是 so_oobmark。 

18. 3f die Ris ge 
671-672 ”如 果 已 到 达 一 个 逻辑 记录 的 结尾 ， 则 soreceive 跳 出 mbuf 处 理 循环 ， 因 而 不 会 
将 下 一 个 逻辑 记录 也 作为 这 个 报 文 的 一 部 分 返回 。 

在 图 16-50 中 ， 当 设置 了 MSG_WAITALL 标 志 ， 并 且 读 请 求 还 没有 完成 ， 则 循环 将 等 待 更 
多 的 数据 到 达 。 l 





5 7a uipc socket.c 
674 * If. the MSG WAITALL flag is set (for non-atomic socket), 
675 * we must not quit until "uio-»uio, resid == 0" or an error 
676 * termination. If a signal/timeout occurs, return 

677 * with a short count but without error. 

678 * Keep sockbuf locked against other readers. 

679 */ 

680 while (flags & MSG WAITALL && m == 0 && uio-»uio resid > 0 && 
681 !'sosendallatonce(so) && !nextrecord) ( 

682 if (so-»so error |] so-»so state & SS, CANTRCVMORE) 

683 break; 

684 error = sbwait(kso-»so rcv); 

685 if (error) { 

686 sbunlock(&so-»-s0o rcv); 

687 splx(s): 

688 return (0); 

689 ) 

690 if (m = so-»so rcv.sb mb) 

691 nextrecord - m-»m nextpkt; 

692 } 

693 } /* while more data and more space to fill */ 





uipc socket.c 


图 16-$0 soreceivetlREÉ: MSG_WAITALL 处 理 


19. MSG_WAITALL 
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673-681 如 果 将 MSG_WAITALL 置 位 ， 而 缓存 中 设 有 数据 (m 等 于 0)， 调 用 者 需要 更 多 的 数据 ， 
sosendallatonce 为 假 ， 并 且 这 是 接收 缓存 中 的 最 后 一 个 记录 (nextrecord 为 空 )， 则 
soreceive 必 须 等 待 新 的 数据 。 

20. 差错 或 没有 数据 到 达 
682-683 如 果 差 错 出 现 或 连接 被 关闭 ， 则 退出 循环 。 

21. 等 待 数据 到 达 i 
684-689 当 接 收 缓存 被 协议 层 改变 时 sbwait 返 回 。 如 果 sbwait 是 被 信号 中 断 (errozr 非 
0)， 则 soreceive 立 即 返回 。 

22. 用 接收 缓存 同市 m 和 mextrecord 
690-692 更 新 m 和 nextrecord， 因 为 接收 缓存 被 协议 层 修改 了 。 如 果 数 据 到 达 mbuf， 则 m 
等 于 非 0，while 循 环 结束 。 

23. 处 理 下 一 个 mbuf 
693 ”本 行 是 mbuf 处 理 循环 的 结尾 。 控 制 返回 到 循环 开始 的 第 600 行 (图 16-47)。 一 旦 接收 缓存 
中 有 数据 ， 有 新 的 缓存 空间 ， 没 有 差错 出 现 ， 则 循环 继续 。 

如 果 soreceive 停 止 复制 数据 ， 则 执行 图 16-51 所 示 的 代码 段 。 


> uipc_socket.c 
694 if (m && pr-»pr flags & PR, ATOMIC) { 
695 flags |- MSG, TRUNC; 
696 if ((flags & MSG PEEK) == 0) 
697 (void) sbdroprecord(&so-»so rcv); 
698 ) 
699 if ((flags & MSG_PEEK) -- 0) ( 
700 if (m == 0) 
701 So-»SOo rcv.sb mb = nextrecord; 
702 if (pr-»pr flags & PR WANTRCVD && So-»So pcb) 
703 (*pr-»pr usrreq) (so, PRU RCVD, (struct mbuf *) 0, 
704 (struct mbuf *) flags, (struct mbuf *) 0, 
705 (struct mbuf *) 0); 
706 ) 
707 if (orig resid == uio-»uio,resid && orig resid && 
708 (flags & MSG_ROR) == 0 && (so-»so state & SS CANTRCVMORE) == 0) ( 
709 sbunlock(&so-»so rcv); 
710 splx(s); 
711 goto restart; 
712 } 
713 if (flagsp) 
714 *flagsp |= flags; . 

uipc socket.c 


图 16-51 soreceiveH EA: 退出 处 理 


24. 被 截断 的 报 文 
694-698 如果 因 为 进程 的 接收 缓存 太 小 而 收 到 一 个 被 截断 的 报 文 (数据 报 或 记录 )， 则 揪 口 
层 将 这 种 情况 通过 设置 MSG_TRUNC 来 通知 进程 ， 报 文 的 被 截断 部 分 被 丢弃 。 同 其 他 接收 标志 
一 样 ， 进 程 只 有 通过 recvmsg 系 统 调用 才能 获得 MSG_TRUNC， 即 使 soreceive 总 是 设置 这 
个 标志 。 

25. 记录 结尾 的 处 理 
699-706 如 果 没 有 将 MSG_PEEK 置 位 ， 则 下 一 个 mbuf 链 将 被 连接 到 接收 缓存 ， 并 且 如 果 发 
送 了 PRU_RCVD 协 议 请 求 ， 则 通知 协议 接收 操作 已 经 完成 。TCP 通 过 这 种 机 制 来 完成 对 连接 


16x 4$ u JO 421 


接收 窗口 的 更 新 。 

26. 没有 传送 数据 
707-712 如 果 soreceive 运 行 完 成 ， 没 有 传送 任何 数据 ， 没 有 到 达 记 录 的 结尾 ， 且 连接 的 
读 通 道 是 活动 的 ， 则 将 接收 缓存 解锁 ，soreceive 跳 回 到 restart 继 续 等 待 数据 。 
713-714 soreceive 中 设置 的 任何 标志 都 在 *flagsp 中 返回 ， 缓 存 被 解锁 ，soreceive 返 回 。 
讨论 

soreceive 是 一 个 复杂 的 函数 。 导 致 其 复杂 性 的 主要 原因 是 繁 锁 的 指针 操作 及 对 多 种 类 
型 的 数据 ( 带 外 数据 、 地 址 、 控 制 信息 和 正常 数据 ) 和 多 目标 (进程 缓存 ，mbuf 链 ) 的 处 理 。 

同 sosend 类 似 ，soreceive 的 复杂 性 是 多 年 积累 的 结果 。 为 每 一 种 协议 编写 一 个 特殊 
的 接收 函数 将 会 模糊 插口 层 和 协议 层 之 间 的 边界 ， 但 是 可 以 大 大 简化 代码 。 

, [Partridge and Pink 1993] 描 述 了 一 个 专门 为 UDP 编写 的 soreceive 图 数 ， 其 功能 是 将 数 


据 报 从 接收 缓存 复制 到 进程 缓存 中 时 给 数据 报 求 检 验 和 。 他 们 给 出 的 结论 是 : 修改 通用 的 
soreceive 函 数 来 支持 这 一 功能 将 “使 本 来 已 经 很 复杂 的 播 口 子 程序 变 得 更 加 复杂 。” 


16.13 select 系统 调用 


在 下 面 的 讨论 中 ， 我 们 假定 读者 熟悉 select 调 用 的 基本 操作 和 含义 。 关 于 select 的 应 用 接口 
的 详细 描述 参考 [Stevens 1992]。 
图 16-$2 列 出 了 select 能 够 监控 的 揪 口 状态 。 


select 监 控 的 操作 


















有 数据 可 读 
连接 的 读 通道 被 关闭 
listen 揪 11 忆 经 将 连接 排队 
插 们 差错 未 处 理 
缓存 可 供 写 操作 用 ， 且 个 连接 存在 或 还 没有 连接 请 求 
连接 的 写 通 道 被 关闭 

播 口 差错 未 处 理 


OOB 同 步 标记 未 处 理 


图 16-52 _ select 系统 调用 : 插口 事件 


我 们 从 select 系 统 调用 的 第 一 部 分 开始 讨论 ， 如 图 16-53 所 示 。 

1. 验证 和 初始 化 
390-410 ”在 堆栈 中 分 配 两 个 数组 ，ibits 和 obits， 每 个 数组 有 三 个 单元 ， 每 个 单元 为 一 个 
描述 符 集合 。 用 bzero 将 它们 清 0。 第 一 个 参数 ，nd， 必 须 不 大 于 进程 的 描述 符 的 最 大 数量 。 
如 果 nd 大 于 当前 分 配给 进程 的 描述 符 个 数 ， 将 其 减少 到 当前 分 配给 进程 的 描述 符 的 个 数 。ni 等 
于 用 来 存放 na 个 比特 (1 个 描述 符 占 1 个 比特 ) 的 比特 掩 码 所 需 的 字 节 数 。 例 如 ， 假 设 最 多 有 256 个 
描述 符 (FD_SETSIZE)，falset 表 示 一 个 32 bit 的 整 型 (WFDBITS) 数 组 ， 且 nd 等 于 65， 那 么 : 

ni-howmany (65,32) x 4=3 x 4=12 


在 上 面 的 公式 中 ，howmany (x，y) 返 回 存储 x 比特 所 需要 的 长 度 为 y 比 特 的 对 象 的 数量 。 
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Sys. generic.c 


390 struct select args ( 
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un 


u int nd; 
fd set *in, *ou, *ex; 
struct timeval *tv; 


select(p, uap, retval) 
struct proc *p; 
struct select args *uap; 


int 


( 


*retval; 


fd set ibits[3], obits(3]; 

struct timeval atv; 

int S, ncoll, error = 0, timo; 
u, int ni; 


bzero((caddr t) ibits, sizeof(ibits)); 
bzero((caddr t) obits, sizeof(obits)); 
if (uap-»nd > FD, SETSIZE) 
return (EINVAL); 
if (uap-»nd > p-»p. fd-»fd, nfiles) 
uap-»nd = p-»p fd-»fd nfiles; /* forgiving; slightly wrong */ 
ni - howmany(uap-»nd, NFDBITS) * sizeof(fd mask); 


#define getbits(name, x) \ 


if (uap-»name && \ 
(error = copyin((caddr t)uap-»name, (caddr t)&ibits[x], ni))) \ 
goto done; 

getbits(in, 0); 

getbits(ou, 1); 

getbits(ex, 2); 


*undef  getbits 


if (uap-»tv) ( 
error - copyin((caddr t) uap-»tv, (caddr t) & atv, 
sizeof(atv)); 
if (error) 
goto done; 
if (itimerfix(&atv)) ( 
error = EINVAL; 
goto done; 
) 
S = splclock(); 
timevaladd(&atv, (struct timeval *) &time); 
timo - hzto(&atv); 
/* 
* Avoid inadvertently sleeping forever. 
*/ 
if (timo == 0) 
timo - 1; 
splx(s); 
} else 
timo = 0; 


sys generic.c 
图 16-53 Select: 初始 化 


2. 从 进程 复制 文件 描述 符 集 


411-418 getbits 宏 用 copyin 从 进程 那里 将 文件 描述 符 集 合 传送 到 ibits 中 的 三 个 描述 


符 集合 。 如 果 描 述 符 集合 指针 为 空 ， 则 不 需 复制 。 
3. 设置 超时 值 
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419-438 如 果 tv 为 室 ， 则 将 timeo 置 成 0，select 将 无 限期 等 待 。 如 果 tv 非 空 ， 则 将 超时 
值 复制 到 内 核 ， 并 调用 itimerfix 将 超时 值 按 硬件 时 钟 的 分 辩 率 取 整 。 调 用 timevalaqdd 将 
当前 时 间 加 到 超时 值 中 。 调 用 hzto 计 算 从 启动 到 超时 之 间 的 时 钟 滴答 数 ， 并 保存 在 timo 中 。 
如 果 计 算出 来 的 结果 为 0， 将 timeo 置 1， 从 而 防止 select 阻 塞 ， 实 现 利 用 全 0 的 timeval1 结 
构 来 实现 非 阻 塞 操作 。 

select 的 第 二 部 分 代码 ， 如 图 16- 54 所 示 . 其 作用 是 扫描 进程 指示 的 文件 描述 符 ， 当 一 
个 或 多 个 描述 符 处 于 就 绪 状 态 或 定时 器 超时 或 信号 出 现时 返回 。 





439 retry: 595-8 M 

440 ncoll - nselcoll; 

441 p-»p flag |- P SELECT; 

442 error - selscan(p, ibits, obits, uap-»nd, retval); 

443 if (error || *retval) 

444 goto done; 

445 S - splhigh(); 

446 /* this should be timercmp(&time, &atv, »-) */ 

447 if (uap-»tv && (time.tv, sec > atv.tv sec |] 

448 time.tv sec -- atv.tv sec && time.tv usec »- atv.tv usec)) ( 

449 splx(s); 

450 goto done; 

451 } 

452 if ((p-»p flag & P SELECT) == 0 || nselcoll !- ncoll) { 

453 Splx(sj; 

454 goto retry; 

455 } 

456 p-»p flag &- ^P SELECT; 

457 error - tsleep((caddr t) & selwait, PSOCK | PCATCH, "select", timo); 

458 Splix(s); 

459 if (error -- 0) 

460 goto retry; 

461 done: 

462 p-»p flag &- ^P SELECT; 

463 /* select is not restarted after signals... */ 

464 if (error == ERESTART) 

465 error = EINTR; 

466 if (error == EWOULDBLOCK) 

467 error = 0; 

468 #define putbits(name, x) \ 

469 if (uap-»name && \ 

470 (error2 = copyout((caddr t)&obits[x], (caddr t)uap-»name, ni))) \ 

471 error - error2; . 

472 if (error == 0) ( 

473 int error2; 

474 putbits(in, 0); 

475 putbits(ou, 1); 

476 putbits(ex, 2); 

477 $undef putbits 

478 J 

479 return (error); 

480 ] . 
Sys generic.c 


图 16-54 .select 国 数 : 第 二 部 分 


4. 扫描 文件 描述 符 
439-442 ”从 retry 开 始 的 循环 直到 select 能 够 返回 时 退出 。 在 调用 进程 的 控制 块 中 保存 
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全 局 整数 nselcol1 的 当前 值 和 P_SELECT 标 志 。 如 果 在 selscan( 图 16-55) 扫 描 文件 描述 符 
期 间 出 现任 何 一 种 变化 ， 则 这 种 变化 表明 描述 符 的 状态 因为 中 断 处 理 而 发 生 改变 ，select 必 
须 重 新 扫描 文件 描述 符 。se1lscan 查 看 三 个 输入 的 描述 符 集合 中 的 每 一 个 描述 符 集 合 ， 如 果 
描述 符 处 于 就 绪 状 态 ， 则 在 输出 的 描述 符 集合 中 设置 匹配 的 描述 符 。 


481 selscan(p, ibits, obits, nfd, retval) Sys -generic.c 

482 struct proc *p; 

483 fd set *ibits, *obits; 

484 int nfd, *retval; 

485 ( 

486 struct filedesc *fdp - p-»p fd; 

487 int msk, i, j, fd; 

488 fd mask bits; 

489 struct file *fp; 

490 int n = 0; 

491 static int flag[3] = 

492 {FREAD, FWRITE, 0}; 

493 for (msk = 0; msk < 3; msk++) { 

494 for (i = 0; i < nfd; i += NFDBITS) { 

495 bits = ibits{msk] .fds_bits[i / NFDBITS]; 

496 while ((j = ffs(bits)) && (fd = i + --j) < nfd) ( 

497 . bits &= ^(1 << j); : 

498 fp = fdp-»fd ofiles[fd]; 

499 if (fp == NULL) 

500 return (EBADF); 

501 if ((*fp-»f ops-»fo select) (fp, flag[msk], p)) ( 

502 FD SET(fd, &obits[msk]); 

503 net; 

504 } 

505 } 

506 } 

507 } 

508 *retval = n; 

509 return (0); 

510 } . 
SyS generic.c 


图 16-55 selscantf 7 


5. 差错 或 一 些 描 述 符 准备 就 绪 
443-444 如 果 差 错 出 现 或 描述 符 处 于 就 绪 状 态 ， 就 立即 返回 。 

6. 超时 了 吗 
445-451 如 果 进 程 提供 的 时 间 限 制 和 当前 时 间 已 经 超过 了 超时 值 ， 则 立即 返回 。 

7. 在 执行 selscan 期 间 状 态 发 生变 化 
452-455 selscan 可 以 被 协议 处 理 中 断 。 如 果 在 中 断 期 间 插 口 状 态 改 变 ， 则 将 P_SELECT 
和 nselcol1 置 位 ， 且 selscan 必 须 重 新 扫描 所 有 描述 符 。 

8. 等 待 缓存 发 生变 化 
456-460 ”所 有 调用 select 的 进程 均 在 调用 tsleep 时 用 selwait 作 为 等 待 通道 。 如 图 16- 
60 所 示 ， 这 种 做 法 在 多 个 进程 等 待 同 一 个 插口 缓存 的 情况 下 将 导致 效率 降低 。 如 果 tsleep 正 
确 返 回 ， 则 select 跳 转 到 retry， 重 新 扫描 所 有 描述 符 。 

9. 准备 返回 
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461-480 在 aone 处 清除 P_SELECT， 如 果 差 错 代 码 为 BRESTART， 则 修改 为 BINTR; 如 果 
差错 代码 为 BWOULDBLOCK， 则 将 差错 代码 置 成 0。 这 些 改变 确保 在 select 调 用 期 间 若 信和 号 
出 现时 能 返回 EINTR; 若 超时 ， 则 返回 0。 


16.13.1 selscanifA/ 


select 轴 数 的 核心 是 图 16-55 所 示 的 selscan 图 数 。 对 于 任意 一 个 描述 符 集合 中 设置 的 
每 一 个 比特 ，selscan 找 出 同 它 相关 联 的 描述 符 ， 并 且 将 控制 分 散 给 与 描述 符 相 关联 的 
so_select 国 数 。 对 于 揪 口 而 言 ， 就 是 soo_select 图 数 。 

481-496 第 一 个 for 循 环 依次 查看 三 个 描述 符 集 合 : 读 ， 写 和 例外 。 第 二 个 for 循 环 在 每 
个 描述 符 集 合 内 部 循环 ， 这 个 循环 在 集合 中 每 隔 32 bit(NFDBITS) 循 环 一 次 。 

最 里 面 的 while 循 环 检查 所 有 被 32 bit 的 掩 码 标记 的 描述 符 ， 该 掩 码 从 当前 描述 符 集合 中 
获取 并 保存 在 bits 中 。 函 数 ffs 返 回 bits 中 的 第 一 个 被 设置 的 比特 的 位 置 ， 从 最 低位 开始 。 
例如 ， 如 果 bits 等 于 1000 (省 略 了 前 面 的 28 个 0)， 则 ffs (bits)* T4. 

2. fe it Jà ER 
497-500 ”从 i 到 ffs 函 数 的 返回 值 ， 计 算 与 比特 相关 的 描述 符 ， 并 保存 在 fd 中 。 在 bits 中 
(而 不 是 在 输入 描述 符 集合 中 ) 清除 比特 ， 找 到 与 描述 符 相 对 应 的 file 结 构 ， 调 用 
fo select. ’ 

fo_select 的 第 二 个 参数 是 EL1ag 数 组 中 的 一 个 元 素 .msk 是 外 层 的 for 循 环 的 循环 变量 。 
所 以 ， 第 一 次 循环 时 ， 第 二 个 参数 等 于 FREAD， 第 二 次 循环 时 等 于 FWRITE， 第 三 次 循环 时 
等 于 0。 如 果 描 述 符 不 正确 ， 则 返回 EBADF。 

3. 描述 符 准 备 就 绪 
501-504 当 发 现 某 个 描述 符 的 状态 为 准备 就 绪 时 ， 设 置 输出 描述 符 集合 中 相对 应 的 比特 位 。 
并 将 n (状态 就 绪 的 描述 符 的 个 数 ) 加 1。 

505-510 循环 继续 直到 轮 询 完 所 有 描述 符 。 状 态 就 绪 的 描述 符 的 个 数 通过 *retval1 返 回 。 


16.13.2 soo selecti 


对 于 selscan 在 输入 描述 符 集合 中 发 现 的 每 一 个 状态 就 绪 的 描述 符 ，selscan 调 用 与 描 
述 符 相 关 的 fileops 结 构 ( 参 考 第 15.5 革 ) 中 的 fo_select 指 针 引 用 的 函数 。 在 本 书 中 ， 我 们 
只 对 插口 描述 符 和 图 16-56 所 示 的 soo_select 孜 数 感 兴 


- sys socket.c 
105 soo select(fp, which, p) 
106 struct file *fp; 


107 int which; 

108 struct proc *p; 

109 ( 

110 struct socket *so = (struct socket *) fp-»f data; 
111 int S - Splnet(); 

112 switch (which) ( 

113 Case FREAD: 

114 if (soreadable(so)) { 


图 16-56 soo selecti *& 
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115 spixí(s); 

116 return (1); 

117 ) 

118 selrecord(p, &so-»so rcv.sb sel); 
119 So-»so rcv.sb flags |= SB, SEL; 
120 break; 

121 case FWRITE: 

122 if (sowriteable(so)) í 

123 spixí(s); 

124 return (1): 

125 ) 

126 selrecord(p, &so-»so snd.sb sel); 
127 So-»so snd.sb flags |= SB. SEL; 
128 break; 

129 case 0: 

130 if (so-»so oobmark || (so-»so state & SS RCVATMARK)) ( 
131 splx (s); 

132 return (1); 

133 } 

134 selrecord(p, &so-»so rcv.sb sel); 
135 so-»so rcv.sb flags |= SB SEL; 
136 break; 

137 ) 

138 spix(s): 

139 return (0); 

140 ) 


sys socket.c 





图 16-56 (£5) 


105-112 soo_select 每 次 被 调用 时 ， 它 只 检查 一 个 描述 符 的 状态 。 如 果 相 对 于 which 中 指定 
的 条 件 ， 描 述 符 处 于 就 绪 状 态 ， 则 立即 返回 1!。 如 果 描 述 符 没有 处 于 就 绪 状 态 ， 就 用 selrecord 
标记 插口 的 接收 缓存 或 发 送 缓存 ， 指 示 进 程 正在 选择 该 缓存 ， 然 后 soo_select 返 回 0。 

图 16-52 显 示 了 插口 的 读 、 写 和 例外 情况 。 我 们 将 看 到 soo_select 使 用 了 soreadable 
和 sowriteable 宏 ， 这 些 宏 在 sys /socketvar.h 中 定义 。 

1. 插口 可 读 吗 
113-120 soreadable 宏 的 定义 如 下 : 


#define soreadable(so) \ 


((so)-»so rcv.sb cc >= (so)-»so rcv.sb lowat HI \ 
((so)-»e0 state & SS CANTRCVMORE) || * 
(so)-»so.alen II (so)-»so error) 


因为 UDP 和 TCP 的 接收 下 限 默 认 值 为 1 (图 16-4)， 下 列 情况 表示 插口 是 可 读 的 : 接收 缓存 
中 有 数据 ， 连 接 的 读 通道 被 关闭 ， 可 以 接受 任何 连接 或 有 挂 起 的 差错 。 

2.4&u T 5*8 
121-128 sowriteable 宏 的 定义 如 下 : 


#define sowriteable(so) ^ 
(sbspace(&(só)-»so.snd) >= (so)-»so snd.sb lowat && ^ 


(((so)-»so state&SS ISCONNECTED) i|i N 
((s0) -»so proto-»pr flags&PR CONNREQUIRED)--0) !! N 
((so)-»so state & SS CANTSENDMORE) |! \ 


(so) -»so error) 


TCP 和 UDP 上 默认 的 发 送 低 水 位 标记 是 2048。 对 于 UDP 而 言 ， sowriteable 总 是 为 真 ， 因 
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为 sbspace 总 是 等 于 sb_hiwat， 当 然 也 总 是 大 于 或 等 于 so_l1owat， 且 不 要 求 连接 。 

对 于 TCP 而 言 ， 当 发 送 缓存 中 的 可 用 空间 小 于 2048 个 字 节 时 ， 播 口 不 可 写 。 其 他 的 情况 
在 图 16-52 中 讨论 。 

3. 还 有 挂 起 的 例外 情况 吗 
129-140 ”对 于 例外 情况 ， 需 检查 标志 so_oobmark 和 SS_RECVATMARK。 直 到 进程 读 完 数 
据 流 中 的 同步 标记 后 ， 例 外 情况 才 可 能 存在 。 


16.13.3 selrecord 函 数 


图 16-57 显 示 同 发 送 和 接收 缓存 存储 在 一 起 的 selinfo 结 构 的 定义 (图 16-3 中 的 sb_sel 成 
员 )。 


41 struct selinfo { select.h 
42 pid t si pid; /* process to be notified */ 
43 short Si flags; /* 0 or SI COLD */ 
44 ); 
select.h 


图 16-57 selinfo 结 构 


41-44 当 只 有 一 个 进程 对 某 一 给 定 的 插口 缓存 调用 select 时 ，s1_pid 等 于 等 待 进程 的 进 
程 标志 符 。 当 其 他 的 进程 对 同一 缓存 调用 select 时 ， 设 置 s1_flags 中 的 SI_COLL 标 志 。 
将 这 种 情况 称 为 冲突 。 这 个 标志 是 目前 s1_flags 中 唯一 已 定义 的 标志 。 

当 soo_select 发 现 描述 符 不 在 就 绪 状 态 时 就 调用 selrecord 国 数 ， 如 图 16-58 所 示 。 
该 函数 记录 了 足够 的 信息 ， 使 得 缓存 内 容 发 生变 化 时 协议 处 理 层 能 够 唤 瞩 进 程 。 


522 void Sys generic 
523 selrecord(selector, sip) 
524 struct proc *selector; 
525 struct selinfo *sip; 
526 ( 
527 struct proc *p; 
528 pid t mypid; 
529 mypid - selector-»p pid; 
530 if (sip-»si pid == mypid) 
531 return; 
532 if (sip-»si pid && (p - pfind(sip-»si pid)) && 
533 p-»p wchan == (caddr t) & selwait) 
534 Sip-»si flags |= SI,COLL; 
535 else 
536 Sip-»si pid = mypid; 
537 ) . 
sys generic.c 
[16-58 selrecordER A 
l. 重复 选择 描述 符 


522-531 selrecord 的 第 一 个 参数 指向 调用 select 进 程 的 proc 结 构 。 第 二 个 参数 指向 
selinfo 记 录 ， 该 记录 的 so_snd.sb_sel 和 so_rcv.sb_sel 可 能 会 被 修改 。 如 果 
selinfo 中 已 记录 了 该 进程 的 信息 ， 则 立即 返回 。 例 如 ， 进 程 对 同一 个 描述 符 调用 select 
查询 读 和 例外 情况 上 时， 函数 就 立即 返回 。 
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2. 同 另 一 个 进程 的 操作 冲突 ? 
532-534 如 果 另 一 个 进程 已 经 对 同一 插口 缓存 执行 select 操 作 ， 则 设置 SI_CoLL。 
3. 受 有 冲突 
535-537 如 果 调 用 没有 发 生 冲 突 ， 则 si_pid 等 于 0， 将 当前 进程 的 进程 标志 符 赋 给 


Si pid. 
16.13.4 selwakeupifid& 


当 协 议 处 理 改变 插口 缓存 的 状态 ， 并 且 只 有 一 个 进程 选择 了 该 缓存 时 ，Net3 就 能 根据 
selinfo 结 构 中 记录 的 信息 立即 将 该 进程 放 入 运行 队列 。 

当 播 口 缓存 发 生变 化 但 是 有 多 个 进程 选择 同一 插口 缓存 时 (设置 了 SI_COLL)，Net/3 就 无 
法 确定 哪些 进程 对 这 种 缓存 变化 感 兴趣 。 我 们 在 讨论 图 16-54 中 的 代码 段 时 就 已 经 指出 ， 每 一 
个 调用 select 的 进程 在 调用 ksleep 有 时 使 用 selwait 作 为 等 待 通道 。 这 意味 着 对 应 的 
wakeup 将 唤醒 所 有 阻塞 在 select 上 的 进程 一 一 其 至 是 对 缓存 的 变化 不 关心 的 进程 。 

图 16-59 说 明 如 何 调 用 selwakeup。 








sowakeup 


发 送 缓存 已 改 变 


sorwakeup 


接收 缓存 届 改 变 


sohasoutofband 


OOB 数 据 已 人 到达 








图 16-59 selwakeup 处 理 


当 改 变 播 口 状态 的 事件 出 现时 ， 协 议 处 理 层 负责 调用 图 16-59 的 底部 列 出 的 一 个 函数 来 通 
知 插口 层 。 图 16-59 底 部 显示 的 三 个 函数 都 将 导致 se lwakeup 被 调用 ， 在 插口 上 选择 的 任何 
进程 将 被 调度 运行 。 

selwakeup 图 数 如 图 16-60 所 示 。 
541-548 如 果 si_pid 等 于 0， 表 明 没有 进程 对 该 缓存 执行 select 操 作 ， 函 数 立 即 返 回 。 

在 冲突 中 唤醒 所 有 进程 
549-553 ”如 果 多 个 进程 对 同一 插口 执行 Select 操 作 ， 将 nselcoll 加 1， 清 除 冲突 标志 ， 
唤醒 所 有 阻塞 在 select 上 的 进程 。 正 如 图 16-54 中 讨论 的 ， 进 程 在 tsleep 中 阻塞 之 前 若 缓 
存 发 生 改 变 ，nselcoll 能 使 select 重 新 扫描 描述 符 ( 习 题 16.9)。 
554-567 如 果 si_pid 标 识 的 进程 正在 seLwait 中 等 待 ， 则 调度 该 进程 运行 。 如 果 进 程 是 在 
其 他 等 待 道道 中 ， 则 清除 P_SELECT 标 志 。 如 果 对 一 个 正确 的 描述 符 执 行 sSelrecord， 则 调用 
进程 可 能 正在 其 他 的 等 待 通道 中 等 待 ， 然 后 ，selscan 在 描述 符 集 合 中 发 现 一 个 差错 的 文件 描 
述 符 ， 并 返回 EBADF， 不 清除 以 前 修改 的 se1linfo 记 录 。 到 selwakeup 运 行 时 ，selwakup 
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可 能 会 发 现 se1_pid 标 识 的 进程 不 再 在 播 口 缓存 等 待 ， 从 而 忽略 selinfo 中 的 信息 。 

如 果 没 有 出 现 多 个 进程 共享 间 一 个 描述 符 的 情况 (也 就 是 同一 块 插口 缓存 )， 当 然 这 种 情况 
很 少 ， 则 只 有 一 个 进程 被 seJwakeup 唤 醒 。 在 作者 使 用 的 机 器 上 ，nselcol1 总 是 等 于 0， 这 
说 明 select 冲 突 是 很 少 发 生 的 。 


541 void Sys generic.c 

542 selwakeup(sip) 

543 struct selinfo *sip; 

544 ( 

545 struct proc *p; 

546 int S; 

547 if (sip-»si, pid == 0) 

548 return; 

549 if (sip-»si flags & SI COLL) ( 

550 nselcoll++; 

551 sip->si_flags &= ^SI COLL; 

552 wakeup((caddr.t) & selwait); 

553 ) 

554 p = pfind(sip-»si pid); 

555 Sip-»si,pid = 0; 

556 if (p !- NULL) ( 

557 S - splhigh(); 

558 if (p-»p.wchan == (caddr.t) & selwait) ( 

559 if (p-»p.stat -- SSLEEP) 

560 setrunnable (p); 

561 else 

562 unsleep(p); 

563 ) eise if (p-»p flag & P SELECT) 

564 p-»p. flag &- "P SELECT; 

565 Splx(s); 

566 H 

567 ) . 
Sys generic.c 


图 16-60 selwakeuptA Zi 


16.14 ”小结 


本 章 介 绍 了 插口 的 读 、 写 和 选择 系统 调用 。 

我 们 了 解 到 sosend 处 理 插口 层 与 协议 处 理 层 之 间 的 所 有 输出 ， 而 soreceive 处 理 所 有 
输入 。 

本 章 还 介绍 了 发 送 缓存 和 接收 缓存 的 组 织 结构 ， 以 及 缓存 的 高 、 低 水 位 标记 的 默认 值 和 
含义 。 

本 章 的 最 后 一 部 分 介绍 了 select 系 统 调用 。 从 这 部 分 内 容 中 我 们 了 解 到 ， 当 只 有 一 个 进 
程 对 描述 符 执行 select 调 用 时 ， 协 议 处 理 层 仅仅 唤醒 selinfo 结 构 中 标识 的 那个 进程 。 当 
有 多 个 进程 对 同一 个 描述 符 执 行 select 操 作 而 发 生 冲 突 时 ， 协 议 层 只 能 唤醒 所 有 等 待 在 该 描 
述 符 上 的 进程 。 


习题 
16.1 当 将 一 个 大 于 最 大 的 正 的 有 符号 整数 的 无 符号 整数 传 给 wzite 系 统 调用 时 ， 
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16.2 


16.3 


16.4 


16.5 


16.6 


16.7 


16.8 
16.9 
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sosengd 中 的 resiq 如 何 变 化 ? 

当 sosend 将 小 于 MCLBYTES 个 字 节 的 数据 放 入 簇 中 时 ，space 被 碱 去 MCLBYTES,， 
可 能 会 成 为 一 个 负数 ， 这 会 导致 为 atomic 协 议 填 写 mbuf 的 循环 结束 。 这 种 结果 是 
正常 的 吗 ? 

数据 报 和 流 协 议 有 着 不 同 的 语义 。 将 sosend 和 soreceive 函 数 分 别 分 成 两 个 函 
数 ， 一 个 用 来 处 理 报 文 ， 另 一 个 用 来 处 理 流 。 除 了 使 得 代码 清晰 外 ， 这 样 做 还 有 什 
么 好 处 ? 

对 于 PR_ATOMIC 协 议 ， 每 一 个 写 调用 都 指定 了 一 个 隐 含 的 报 文 边界 。 插 日 层 将 这 
个 报 文 作为 一 个 整体 交 给 协议 。MSG_EOR 标 志 人 允许 进程 显 式 指 定 报 文 边界 。 为 什 
么 仅 有 隐 含 的 报 文 边 界 是 不 够 的 ? 

如 果 播 口 描述 符 没 有 标记 为 非 阻 塞 ， 且 进程 也 没有 指定 MSG_DONTWRAIT， 当 
sosend 不 能 立即 获取 发 送 缓存 上 的 锁 时 ， 结 果 如 何 ? 

在 什么 情况 下 ， 虽 然 sb_cc<sb_hiwat， 但 sbspace 仍 然 报告 没有 闲置 空间 ?为 
什么 在 这 种 情况 下 进程 应 该 被 阻塞 ? 

为 什么 recvit 不 将 控制 报 文 的 长 度 而 是 将 名 字 长 度 返回 给 进程 ? 

为 什么 soreceive 要 清除 MSG_EOR? 

如 果 将 nselco1l1 代 码 从 select 和 selwakeup 中 删除 ， 会 有 什么 问题 ? 


16.10 修改 select 系 统 调 用 ， 使 得 select 返 回 时 返回 定时 器 的 剩余 时 间 。 


第 17 章 插口 选项 


17.1 引言 


本 章 讨论 修改 插口 行为 的 几 个 系统 调用 ， 以 此 来 结束 插口 层 的 介绍 。 

setsockopt 和 getsockopt 系 统 调用 已 在 第 8.8 节 中 介绍 过 ， 主 要 描述 访问 下 特点 的 选 
项 。 在 本 章 中 ， 我 们 将 介绍 这 两 个 系统 调用 的 实现 以 及 通过 它们 来 控制 的 插口 级 选项 。 

ioct1 函 数 在 第 4.4 节 中 已 介绍 过 ， 在 第 4.4 节 中 ， 我 们 描述 了 用 于 网 络 接 口 配置 的 与 协议 
无 关 的 ioct1 命 令 。 在 第 6.7 节 中 ， 我 们 描述 了 用 来 分 配 网 络 掩 码 以 及 单 播 、 多 播 和 目的 地 址 
的 IP 专 用 的 ioct1 命 令 。 本 童 我 们 将 介绍 ioct1 的 实现 和 fcnt1 函 数 的 相关 特点 。 

最 后 ， 我 们 介绍 getsockname 和 getpeername 系 统 调用 ， 它 们 用 来 返回 插口 和 连接 的 
地 址 信息 。 

图 17-1 列 出 了 实现 插口 选项 系统 调用 的 函数 。 本 章 描 述 带 阴影 的 函数 。 





pr ctloutout 





: (tcp ctloutput rip. ctloutput : 












ip ctloutput 


图 17-1 setsockopt 和 getsockopt 系 统 调用 


17.2 代码 介绍 
本 章 中 涉及 的 源 代码 来 自 于 图 17-2 中 列 出 的 四 个 文件 。 


kern/kern descrip.c fcnt1 系 统 调用 


kern/uipc. syscalls.c setsockopt. getsockopt. getsocknamefllgetpeername 系统 调用 
kern/uipc, socket.c 插口 层 对 setsockopt 和 getsockopt 的 处 理 
kern/sys_socket.c ioct1 系 统 调用 对 插口 的 处 理 


图 17-2 本 章 讨论 的 源 文件 
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全 局 变量 和 统计 量 
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本 章 中 描述 的 系统 调用 没有 定义 新 的 全 局 变量 ， 也 没有 收集 任何 统计 量 。 
17.8 setsockopt 系 统 调 用 


图 8-29 列 出 了 函数 setsockopt (和 getsockopt) 能 够 访问 的 各 种 不 同 的 协议 层 。 本 章 
主要 集中 在 SOL_SOCKET 级 的 选项 ， 这 些 选项 在 图 17-3 中 列 出 


SO SNDBUF 
SO RCVBUF 
SO SNDLOWAT 
SO RCVLOWAT 
SO SNDTIMEO 
SO RCVTIMEO 
SO DEBUG 


SO REUSEADDR 
SO REUSEPORT 
SO KEEPALIVE 
SO DONTROUTE 
SO BROADCAST 
SO USELOOPBACK 


SO OOBINLINE 


SO LINGER 


struct timeval 


struct timeval 


Struct linger 


So, snd.sb hiwat 


so rcv.sb hiwat 


so snd. 
SO, rcv. 
So. snd. 
So snd. 
SO options 
so, options 
So options 
So options 
So options 
So, options 


SO, options 


SO options 


So linger 


sb, lowat 
sb lowat 
sb timeo 


sb, timeo 


发 送 缓存 高 水 位 标记 
接收 缓存 高 水 位 标记 

发 送 缓存 低 水 位 标记 
接收 缓存 低 水 位 标记 
发 送 超时 值 

接收 超时 值 

记录 插口 调试 信息 

插口 能 重新 使 用 ~ 个 本 地 地 址 
插口 能 重新 使 用 一 个 本 地 端口 
协议 查询 空 夫 的 连接 
旁 路 路 由 表 
插口 支持 广播 报 文 
DU TRE RTT; 
路 报 文 

协议 排队 内 联 的 带 外 数据 
插口 关闭 但 仍 发 送 剩余 数据 


发 送 进程 接收 自己 的 选 


SO ERROR 
SO TYPE 


其 他 


int setsockopt (int s, 


So error 


So, type 





获取 差错 状态 并 清除 ， 只 用 十 getsockopt 
获取 插口 类 型 ; 只 用 十 getsockopt 
返回 ENOPROTOOPT 


图 17-3 setsockopt 和 getsockopt 选 项 
setsockopt HKN 3: 


int level, 


int optname, 


图 17-4 显 示 了 setsockopt 调 用 的 源 代 码 。 


565-597 


void *optval, int optlen) ; 


getsock 返 回 插口 描述 符 的 file 结 构 。 如 果 val 非 空 ， 则 将 Valsize 个 字 布 的 


数据 从 进程 复制 到 用 m_get 分 配 的 mbuf 中 。 与 选项 对 应 的 数据 长 度 不 能 超过 MLEN 个 字 节 ， 所 
以 ， 如 果 valsize 大 于 MLEN， 则 返回 EINVAL。 调 用 sosetopt， 并 返回 其 值 。 


565 
566 





struct sets 
int 
int 
int 
caddr t 
int 

}; 


ockopt_args { 
S; 

level; 

name; 

val; 
valsize; 


setsockoptí(p, uap, retval) 


struct proc 
struct sets 
int 


*p; 
ockopt_args *uap; 


*retval; 


图 17-4 


uipc syscalls.c 


setsockopt 系 统 调 用 


£173 dé c ib 433 





576 ( 
577 struct file *fp; 
578 struct mbuf *m = NULL; 
579 int error; 
580 if (error - getsock(p-»p fd, uap-»s, &fp)) 
581 return (error); 
582 if (uap-»valsize > MLEN) 
583 return (EINVAL); 
584 if (uap-»val) ( 
585 m - m get(M, WAIT, MT SOOPTS); 
586 if (m == NULL) 
587 return (ENOBUFS); 
588 if (error - copyin(uap-»val, mtod(m, caddr t), 
589 (u int) uap-»valsize)) ( 
590 (void) m free(m); 
591 return (error); 
592 } 
593 m-»m len = uap-»valsize; 
594 ) 
595 return (sosetopt((struct socket *) fp-»f data, uap-»level, 
596 uap-»name, m)); 
597 ) 
uipc syscalls.c 
图 17-4 (4%) 
sosetopti£ 


sosetopt 国 数 处 理 所 有 播 口 级 的 选项 ， 并 将 其 他 的 选项 传 给 与 插口 关联 的 协议 的 
pr_ctloutput 国 数 。 图 17-5 列 出 了 sosetopt 国 数 的 部 分 代码 。 
uipc socket.c 





752 sosetopt(so, level, optname, m0) 
753 struct socket *so; 





754 int level, optname; 

755 struct mbuf *m0; 

756 ( 

757 int error = 0; 

758 struct mbuf *m = m0; 

759 if (level !- SOL, SOCKET) ( 

760 if (so-»so| proto && so-»so proto-»pr, ctloutput) 

761 return ((*so-»so proto-»pr ctloutput) 

762 (PRCO SETOPT, so, level, optname, &m0)); 
763 error - ENOPROTOOPT; : 
764 ) else ( 

765 switch (optname) ( 

841 default: 

842 error - ENOPROTOOPT; 

843 break; 

844 J 

845 if (error == 0 && so-»so proto && so-»So, proto-»pr ctloutput) ( 
846 (void) ((*so-»so proto-»pr ctloutput) 

847 (PRCO SETOPT, so, level, optname, &m0)); 


图 17-5 sosetopt 函数 
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848 m - NULL; /* freed by protocol */ 
849 ) 

850 ) 

851 bad: 

852 if (m) 

853 (void) m free(m); 

854 return (error); 

855 ) 


uipc socket.c 


图 17-5 (5) 


752-764 如 果 选 项 不 是 播 口 级 的 (SOL_SOCKET) 选 项 ， 则 给 底层 协议 发 送 PRCO_SETOPT 请 
求 。 注 意 : 调用 的 是 协议 的 pr_ct1loutput 函 数 ， 而 不 是 它 的 pr_usrreq 函 数 。 图 17-6 说 
uu A ee ctloutput Át. 


upp | ip. | ip ctloutput ^^ —— | mes | 
tcp ctloutput 5530.65 


ICMP 
IGMP rip_ctloutputflip_ctloutput 第 8.8 节 和 第 32.8 节 
原始 IP 





图 17-6 pr_ctloutput 国 数 


765 ”switch 语句 处 理 插口 级 的 选项 。 
841-844 对 于 不 认识 的 选项 ， 在 保存 它 的 mbuf 被 释放 后 返回 ENOPROTOOPT。 
845-855 ”如 果 没有 出 现 差错 ， 则 控制 总 是 会 执行 到 swi tch。 在 switch 语 句 中 ， 如 果 协 议 
层 需 要 响应 请 求 或 插口 证 ， 则 将 选项 传送 给 相应 的 协议 。Internet 协 议 中 没有 一 个 预期 处 理 插 
口 级 的 选项 。 

注意 ， 如 果 协 议 收 到 不 预期 的 选项 ， 则 直接 将 其 pr_ct1output 函 数 的 返回 值 丢 弃 。 并 
将 m 置 空 ， 以 免 调 用 m_free， 因 为 协议 负责 释放 缓存 。 

图 17-7 说 明了 1inger 选 项 和 在 插口 结构 中 设置 单一 标志 的 选项 。 
766-772 1inger 选 项 要 求 进程 传人 Linger 结 构 : 

struct linger ( 

int l onoff; /* option on/off */ 


int l, linger;  /* linger time in seconds */ 


}; 

确保 进程 已 传人 长 度 为 1inger 结 构 大 小 的 数据 后 ， 将 结构 成 员 1_1inger 复 制 到 
so_linger 中 。 在 下 一 组 case 语 句 后 决定 是 使 能 还 是 关闭 该 选项 。so_linger 和 和 close 系 
统 调用 在 第 15.15 节 中 已 介绍 过 。 
773-789 ” 当 进 程 传人 一 个 非 0 值 时 ， 设 置 选项 对 应 的 布尔 标志 ; 当 进 程 传人 的 是 0 时 ， 将 对 
应 标志 清除 。 第 一 次 检查 确保 一 个 整数 大 小 (或 更 大 ) 的 对 象 在 mbuf 中 ， 然 后 设置 或 清除 对 应 
的 选项 。 

图 17-8 显 示 了 插口 缓存 选项 的 处 理 。 
790-815 这 组 选项 改变 揪 口 的 发 送 和 接收 缓存 的 大 小 。 第 一 个 if 语句 确保 提供 给 四 个 选项 
的 变量 是 整 型 。 对 于 SO0_SNDBUF 和 SO_RCVBUF，sbreserve 只 调整 缓存 的 高 水 位 标记 而 不 
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分 配 缓存 。 对 于 SO_SNDLOWAT 和 SO_RCVLOWAT， 调 整 缓存 的 低 水 位 标记 。 











766 case SO_LINGER: uipc_socket.c 

767 if (m == NULL || m-»m len != sizeof (struct linger)) ( 

768 error - EINVAL; 

769 goto bad; 

770 ) 

771 So-»so linger = mtod(m, struct linger *)-»1 linger; 

772 /* fall thru... */ 

7173 case SO DEBUG: 

774 case SO KEEPALIVE: 

775 case SO DONTROUTE: 

776 case SO USELOOPBACK: 

777 case SO BROADCAST: 

778 Case SO REUSEADDR: 

779 case SO REUSEPORT: 

780 case SO, OOBINLINE: 

781 if (m == NULL || m-»m len < sizeof(int)) { 

782 error = EINVAL; 

783 goto bad; 

784 ) 

785 if (*mtod(m, int *)) 

786 SO-»SO options |= optname; 

787 else 

788 So-»so options &- ^optname; 

789 break; 
uipc. socket.c 

图 17-7 sosetopttKÉC: 1inger 和 标志 选项 

uipc_socket.c 

790 case SO SNDBUF: 

791 case SO RCVBUF: 

792 case SO SNDLOWAT: 

793 case SO, RCVLOWAT : 

794 if (m == NULL || m-»m len < sizeof(int)) ( 

795 error - EINVAL; 

796 goto bad; 

797 ) 

798 switch (optname) ( 

799 case SO SNDBUF: 

800 case SO RCVBUF: 

801 if (sbreserve(optname == SO, SNDBUF ? 

802 &So-»Sso snd : &so-»so rcv, 

803 (u long) * mtod(m, int *)) == 0) ( 

804 error - ENOBUFS; : 

805 goto bad; 

806 } 

807 break; 

808 case SO SNDLOWAT: 

809 So-»so snd.sb lowat = *mtod(m, int *); 

810 break; 

811 case SO RCVLOWAT: 

812 So-»so,rcv.sb lowat = *mtod(m, int *); 

813 break; 

814 ) 

815 break; uipc socket.c 





图 17-8 sosetopti& E: 插口 缓存 选项 
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图 17-9 说 明 超 时 选项 。 
uipc socket.c 
816 case SO,SNDTIMEO: 
817 case SO RCVTIMEO: 
818 ( 
819 struct timeval *tv; 
820 short val; 
821 if (m == NULL || m-»m len < sizeof(*tv)) ( 
822 error - EINVAL; 
823 goto bad; 
824 ) 
825 tv - mtod(m, struct timeval *); 
826 if (tv-»tv sec > SHRT MAX / hz - hz) ( 
827 error - EDOM; 
828 goto bad; 
829 } 
830 val = tv->tv_sec * hz + tv-»tv usec / tick; 
831 switch (optname) ( 
832 case SO, SNDTIMEO: 
833 So-»so snd.sb timeo - val; 
834 break; 
835 case SO RCVTIMEO: 
836 SOo-»SO rcv.sb.timeo = val; 
837 break; 
838 ) 
839 break; 
840 ) 
uipc socket.c 


图 17-9 sosetopt)& E: 超时 选项 
816-824 ”进程 在 timeval 结 构 中 设置 S80_SNDTIMEO 和 SO_RCVTIMEO 选 项 的 超时 值 。 如 
果 传 入 的 数值 不 正确 ， 则 返回 EINVAL 。 
825-830 ”存储 在 timeval 结 构 中 的 时 间 间 隔 值 不 能 太 大 ， 因 为 sb_timeo 是 一 个 短 整数 ， 
当时 间 间 隔 值 的 单位 为 一 个 时 钟 滴答 时 ， 时 间 间 隔 值 的 大 小 就 不 能 超过 一 个 短 整数 的 最 大 值 。 
第 826 行 代码 是 不 正确 的 。 在 下 列 条 件 下 ， 时 间 间 隔 不 能 表示 为 一 个 短 整 数 : 
tv_secxhz+— 7. > SHRT_MAX 
HB, ticck-1 000 000/hz 和 SHRT_MAX=32767 
所 以 ， 如 果 下 列 不 等 式 成 立 ， 则 返回 。 


SHRT MAX tv_usec SHRT MAX tv_usec 


t CO 人 人 CC 
V-58 hz tickxhz hz 1000000 


等 式 的 最 后 一 项 不 是 代码 指明 的 hz 。 正 确 的 测试 代码 应 该 是 : 
if (tv-»tv sec * hz«tv-»tv usec/tick»SHRT, MAX) 
error-EDOM; 


习题 17.3 中 有 更 详细 的 讨论 。 
831-840 ”将 转换 后 的 时 间 ，val， 保 存在 请 求 的 发 送 或 接收 缓存 中 。sb_timeo 限 制 了 进 
程 等 待 接收 缓存 中 的 数据 或 发 送 缓存 中 的 闲置 空间 的 时 间 。 详 细 讨 论 参 考 第 16.7 和 16.11 节 。 
超时 值 是 传 给 tsleep 的 最 后 一 个 参数 ， 因 为 Lsleep 要 求 超时 值 为 一 个 整数 ， 所 以 
进程 最 多 只 能 等 待 65535 个 时 钟 滴答 。 假 设 时 钟 频率 为 100 Hz， 则 等 待 时 间 小 于 1 分钟。 
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17.4 getsockopt 系 统 调用 
getsockopt 返 回 进程 请 求 的 插口 和 协议 选项 。 国 数 原型 是 : 


int getsockopt(int s, int level, int name, caddr. t val, int *valsize); 


该 调用 的 源 代码 如 图 17-10 所 示 。 





598 struct getsockopt args { 


599 
600 
601 
602 
603 
604 ); 


int s; 

int level; 
int name; 
caddr t val; 

int *avalsize; 


605 getsockopt(p, uap, retval) 
606 struct proc *p; 
607 struct getsockopt args *uap; 


608 int 
609 ( 
610 

611 

612 


613 
614 
615 
616 
617 
618 
619 
620 
621 
622 
623 
624 
625 
626 
627 
628 
629 
630 
631 
632 
633 } 


598-633 


*retval; 


struct file *fp; 
struct mbuf *m = NULL; 
int valsize, error; 


if (error = getsock(p-»p fd, uap-»s, &fp)) 
return (error); 
if (uap-»val) ( 
if (error = copyin((caddr t) uap-»avalsize, (caddr t) & valsize, 
sizeof(valsize))) 
return (error); 
) else 
valsize = 0; 
if ((error = sogetopt((struct socket *) fp-»f data, uap-»level, 
uap-»name, &m)) == 0 && uap-»val && valsize && m !- NULL) 
if (valsize » m-»m len) 
valsize - m-»m len; 
error = copyout(mtod(m, caddr t), uap-»val, (u int) valsize); 
if (error == 0) 
error = copyout((caddr t) & valsize, 
(caddr t) uap-»avalsize, sizeof(valsize)); 
) . 
if (m != NULL) 
(void) m free(m); 
return (error); 
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uipc_syscalls.c 


uipc syscalls.c 


图 17-10 getsockopt 系 统 调用 


这 有 段 代码 现在 看 上 去 应 该 很 熟悉 了 。getsock 获 取 插 口 的 file 结 构 ， 将 选项 缓 


存 的 大 小 复制 到 内 核 ， 调 用 sogetopt 来 获取 选项 的 值 。 将 sogetopt 返 回 的 数据 复制 到 进 


程 提 供 的 缓存 ， 可 能 还 需 修 改 缓存 长 度 。 如 果 进 程 提供 的 缓存 不 够 大 ， 


被 截 掉 。 通 常情 况 下 ， 存 储 选 项 数据 的 mbuf 在 函数 返回 后 被 释放 。 


sogetopt fj AZ 


同 sosetopt 一 样 ， 


口 关联 的 协议 。 图 17-11 列 出 了 sogetopt 函 数 的 开始 和 结 :东部 分 的 代码 


则 返回 的 数据 可 能 会 


sogetopt 函 数 处 理 所 有 插口 级 的 选项 ， 并 将 其 他 的 选项 传 给 与 插 


438 TCP/IPXX&R 2: ZA 


uipc socket.c 
856 sogetopt(so, level, optname, mp) 

857 struct socket *so; 

858 int level, optname; 

859 struct mbuf **mp; 

860 ( 

861 struct mbuf *m; 

862 if (level != SOL SOCKET) ( 

863 if (so->so_proto && so->so_proto->pr_ctloutput) { 
864 return ((*so-»so proto-»pr ctloutput) 

865 (PRCO.GETOPT, so, level, optname, mp)); 
866 ) else 

867 return (ENOPROTOOPT); 

868 ) else ( 

869 m-m get(M WAIT, MT SOOPTS); 

870 m-»m len - sizeof(int); 

871 Switch (optname) ( 

918 default: 

919 (void) m free(m); 

920 return (ENOPROTOOPT); 

921 ) 

922 *mp-m; 

923 return (0); 

924 J 

225 ) uipc socket.c 





图 17-11 sogetopt 国 数 : 概述 


856-871 同 sosetopt 一 样 ， 函 数 将 那些 与 插口 级 选项 无 关 的 选项 立即 通过 
PRCO_GETOPT 协 议 请 求 传 递 给 相应 的 协议 级 。 协 议 将 被 请 求 的 选项 保存 在 mp 指向 的 mbuf 中 。 

对 于 插口 级 的 选项 ， 分 配 一 块 标 准 的 mbuf 缓 存 来 保存 选项 值 ， 选 项 值 通常 是 一 个 整数 ， 
所 以 将 m_len 设 成 整数 大 小 。 相 应 的 选项 值 通 过 switch 语 句 复制 到 mbuf 中 。 
918-925 如 果 执 行 的 是 switch 中 的 default 情 况 下 的 语句 ， 则 释放 mbuf， 并 返回 
ENOPROTOOPT。 否 则 ，switch 语 名 执行 完 成 后 ， 将 指向 mbuf 的 指针 赋 给 *mp 。 当 国 数 返回 
后 ，getsockopt 从 该 mbuf 中 将 数据 复制 到 进程 提供 的 缓存 ， 并 释放 mbuf。 

图 17-12 说 明 对 SO_LINGER 选 项 和 作为 布尔 型 标志 实现 的 选项 的 处 理 。 
872-877 SO_LINGER 选 项 请 求 返回 两 个 值 : 一 个 是 标志 值 ， 赋 给 1_onoff; 另 一 个 是 拖 
延 时 间 ， 赋 给 1_l1inget。 
878-887 其 余 的 选项 作为 布尔 标志 实现 。 将 so_options 和 optname 执 行 逻辑 与 操作 ， 如 
果 选 项 被 打开 ， 则 与 操作 的 结果 为 非 0 值 ， 反 之 则 结果 为 0。 BOX: 标志 被 打开 并 不 表示 返回 
值 等 于 1 。 

sogetopt 的 下 一 部 分 代码 (图 17-13) 将 整 型 值 选 项 的 值 复制 到 mbuf 中 。 
888-906 将 每 一 个 选项 作为 一 个 整数 复制 到 mbuf 中 。 注 意 : 有 些 选项 在 内 核 中 是 作为 一 个 
短 整数 存储 的 (如 缓存 高 低 水 位 标记 )， 但 是 作为 整数 返回 。 一 旦 将 so_error 复 制 到 mbuf 中 
后 ， 即 清除 so_error， 这 是 唯一 的 一 次 getsockopt 调 用 修改 插口 状态 。 
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872 case SO, LINGER: uipc socket.c 
873 m-»m len - sizeof(struct linger); 
874 mtod(m, struct linger *)-»1 onoff = 
875 SO-»5O options & SO ,LINGER; 
876 mtod(m, struct linger *)-»1 linger = so-»so linger; 
877 break; 
878 case SO USELOOPBACK: 
879 case SO, DONTROUTE: 
880 case SO DEBUG: 
881 case SO KEEPALIVE: 
882 case SO REUSEADDR: 
883 case SO REUSEPORT: 
884 case SO BROADCAST: 
885 case SO OOBINLINE: 
886 *mtod(m, int *) - so-»so options & optname; 
887 break; 
uipc, socket.c 
图 17-12 soegetopt 选 项 : SoO_LINGER 选 项 和 布尔 选项 
uipc socket.c 
888 case SO TYPE: . 
889 *mtod(m, int *) = so-»so type; 
890 break; 
891 case SO ERROR: 
892 *mtod(m, int *) = so-»so error; 
893 So-»So error = 0; 
894 break; 
895 case SO SNDBUF: 
896 *mntodí(m, int *) = so-»so snd.sb hiwat; 
897 break; 
898 case SO RCVBUF: 
899 *mtod(m, int *) = so-»so rcv.sb hiwat; 
900 break; 
901 case SO SNDLOWAT: 
902 *mtod(m, int *) - so-»so snd.sb lowat; 
903 break; 
904 . case SO RCVLOWAT : 
905 *mtod(m, int *) - so-»so rcv.sb lowat; 
206 break; uipc_socket.c 
图 17-13 sogetopt 国 数 : 整 型 值 选 项 
uipc, socket.c 
907 case SO SNDTIMEO: 
908 case SO RCVTIMEO: 
909 { 
910 int val = (optname == SO_SNDTIMEO ? 
911 So-»so 8nd.sb timeo : so-»so rcv.sb timeo); 
912 m-»m len = sizeof(struct timeval); 
913 mtod(m, struct timeval *)-»tv sec - val / hz; 
914 mtod(m, struct timeval *)-»tv usec = 
915 (val $ hz) / tick; 
916 break; . 
917 H uipc, ket.c 


图 17-14 sogetoptR E: 超时 选项 
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图 17-14 列 出 了 sogetopt 的 第 三 和 第 四 部 分 代码 ， 它 们 的 作用 分 别 是 处 理 SO_SNDTIMEO 
和 SO_RCVTIMEO 选 项 。 
907-917 将 发 送 或 接收 缓存 中 的 sb_timeo 值 赋 给 var。 基 于 val 中 的 时 钟 滴答 数 ， 在 
mbuf 中 构造 一 个 timeval 结 构 。 


计算 tv_usec 的 代码 有 一 个 差错 。 表 达 式 应 该 为 : "(val $ hz)* tick", 


17.5 fcnt1 和 :ioct1L 系 统 调用 


因为 历史 的 原因 而 非 有 意 这 么 做 ， 揪 口 API 的 几 个 特点 既 能 通过 ioct1 也 能 通过 fcnt1 来 
访问 。 关 于 ioct1 命 令 ， 我 们 已 经 讨论 了 很 多 。 我 们 也 几 次 提 到 fcntl。 
图 17-15 显 示 了 本 章 描 述 的 函数 。 


aam CD C dei > 


ye N tug 


soo iocti 






if ioctl 





图 17-15 fcnt1 和 ioct1 畏 数 
ioct1 和 fcnt1I 的 原型 分 别 为 : 


int ioctl(int fd, unsigned long resuh, char *argp); 
int fcntl(int fd, int emd,... /* int arg */); 
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图 17-16 总 结 了 这 两 个 系统 调用 与 播 口 有 关 的 特点 。 我 们 在 图 17-16 中 还 列 出 了 一 些 传统 的 
常数 ， 因 为 它们 出 现在 代码 中 。 考 虑 与 Posix 的 兼容 性 ， 可 以 用 0_NONBLOCK 来 代替 
FNONBLOCK， 用 0_ASYNC 来 代 赫 FASYNC。 





fcntl 


FNONBLOCK 文 件 状 态 标 志 

















通过 打开 或 关闭 so_state 中 的 SS_NBIO FIONBIO 命 令 
来 使 能 或 禁止 非 险 塞 功能 

通过 打开 或 关闭 sp_f1lags 中 的 SB ASYNC 
来 使 能 或 禁止 异步 通知 功能 
设置 或 得 到 so_pgid， 它 是 SIGIOG 和 
SIGURG 信 号 的 目标 进程 或 进程 组 
得 到 接收 缓存 中 的 字 节 数 ; 返回 
so rcv.sb cc 
返回 ooB 同 步 标 记 ; 即 sce_state 中 的 
SS_RCVATMARK 标 志 





FIOASYNC 命 令 


FASYNC 文 件 状 态 标志 
















SIOCSPGRP 或 SIOCGPGRP 命 令 


| 
UT 


图 17-16 fcnt1 和 ioct1 命 令 








F SETOWNEGF. GETOWN 











17.5.1 fcnt1L 代 码 


图 17-17 列 出 了 fcnt1 函 数 的 部 分 代码 。 


133 struct fcntl, args ( kern Pc 
134 int fd; 
135 int cmd; 
136 int arg; 
137 ); 
138 /* ARGSUSED */ 
139 fcntl(p, uap, retval) 
140 struct proc *p; 
141 struct fcntl, args *uap; 
142 int *retval; 
143 ( 
144 struct filedesc *fdp - p-»p fd: 
145 struct file *fp; 
146 struct vnode *vp; 
147 int i, tmp, error, flg = F, POSIX; 
148 struct flock f1; 
149 u int newmin; 
150 if ((unsigned) uap-»fd >= fdp-»fd nfiles || 
151 (fp = fdp-»fd ofiles[uap-»fd]) == NULL) 
152 return (EBADF); 
153 switch (uap-»cmd) ( 
' A 
253 default: 
254 return (EINVAL); 
255 } 
256 /* NOTREACHED */ 
257 ] 
EM ——  — — kern, descrip.c 


图 17-17 fent AKWA: 概况 
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133-153 验证 完 指向 打开 文件 的 描述 符 的 正确 性 后 ，switch 语 句 处理 请 求 的 命令 。 


253-257 对 于 不 认识 的 命令 ，fcnt1 返 回 EINVRAL。 
图 17-18 仅 显示 fcntl 中 与 插口 有 关 的 代码 。 


168 case F. GETFL: kern. descrip.c 
169 *retval = OFLAGS(fp--f flag); 
170 return (0); 
171 case F. SETFL: 
172 fp-»f flag &- ^FCNTLFLAGS; 
173 fp-»f flag |= FFLAGS(uap-»arg) & FCNTLFLAGS; 
174 tmp = fp-»f, flag & FNONBLOCK; 
175 error = (*fp-»f ops-»fo ioctl) (fp, FIONBIO, (caddr t) & tmp, p); 
176 if (error) 
177 return (error); 
178 tmp = fp-»f flag & FASYNC; 
179 error = (*fp-»f ops-»fo ioctl) (fp, FIOASYNC, (caddr t) & tmp, p): 
180 if (l!error) 
181 return (0); 
182 fp-»f flag &= ^FNONBLOCK; 
183 tmp - 0; 
184 (void) (*fp-»2f ops--fo ioctl) (fp, FIONBIO, (caddr t) & tmp, p): 
185 return (error); 
186 case F_GETOWN : 
187 if (fp-»f type == DTYPE SOCKET) ( 
188 *retval = ((struct socket *) fp-»f data)-»so pgid; 
189 return (0); 
190 ) 
191 error = (*fp-»f ops-»fo ioctl) 
192 (fp, (int) TIOCGPGRP, (caddr t) retval, p); 
193 *retval - -*retval; 
194 return (error); 
195 case F SETOWN: 
196 if (fp-»f type == DTYPE SOCKET) ( 
197 ((struct socket *) fp-»f data)-»so pgid = uap-»arg; 
198 return (0); 
199 ) 
200 if (uap-»arg «- 0) ( 
201 uap-»arg = -uap-»arg; 
202 ) else ( 
203 struct proc *pl = pfind(uap-»arg); 
204 if (pl == O0) 
205 return (ESRCH); 
206 uap-»arg = pl-»p pgrp-»pg.id; 
207 ) 
208 return ((*fp-»f ops-»fo ioctl) . 
i ' ->arg, 7 
209 (fp, (int) TIOCSPGRP, (caddr t) & uap-»arg, p)) kern Dc 


图 17-18 fcnt1 系 统 调用 : 插口 处 理 


168-185 F_GETFL 返 回 与 描述 符 相 关 的 当前 文件 状态 标志 ，F_SETFL 设 置 状态 标志 。 通 过 
调用 fo_ioct1 将 FNONBLOCK 和 FASYNC 的 新 设置 传递 给 对 应 的 插口 ， 而 插口 的 新 设置 是 通 


过 图 17-20 中 描述 的 so00_ioct1 函 数 来 传递 的 。 只 有 在 第 二 个 fo_ioct1l 调 用 失败 后 ， 才 第 
三 次 调用 fo_ioct1。 该 调用 的 功能 是 清除 FNONBLOCK 标 志 ， 但 是 应 该 改 为 将 这 个 标志 恢复 
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到 原来 的 值 。 

186-194 了 F_GETOWN 返 回 与 插口 相关 联 的 进程 或 进程 组 的 标识 符 ，so_pgid。 对 于 非 插口 
描述 符 ， 将 TIOCGPGRP ioct1l 命 令 传 给 对 应 的 fo_ioct1 国 数 。F_SETOWN 的 功能 是 给 
so_pgid 赋 一 个 新 值 。 


17.5.2 ioct1l 代 码 


我 们 跳 过 ioect1 系 统 调用 本 身 而 先 从 soo_ioct1 开 始 讨论 ， 如 图 17-20 所 示 ， 因 和 为 
ioct1l 的 代码 中 的 大 部 分 是 从 图 17-17 所 示 的 代码 中 复制 的 。 我 们 已 经 说 过 ，soo_ioctli 函 
数 将 选 路 命令 发 送 给 rtioct1l， 接 口 命 令 发 送 给 i1fioct1l1， 任 何其 他 的 命令 发 送 给 底层 协议 
的 pr_usrred 图 数 。 

55-68 有 儿 个 命令 是 由 soo_ioct1 直 接 处 理 的 。 如 果 *data 非 空 ， 则 FIONBIO 打 开 非 阻 

塞 方式 ， 否 则 关闭 非 阻 塞 方式 。 正 于 我 们 已 经 了 解 的 ， 这 个 标志 将 影响 到 accept、 

connect 和 close 系 统 调用 ， 也 包括 其 他 的 读 和 写 系 统 调用 。 

69-79 FIOASYNC 使 能 或 禁止 异步 /0 通知 功能 。 如 果 设 置 了 SS_ASYNC， 则 无 论 什么 时 候 

插口 上 有 活动 ， 就 调用 sowakeup，、 将 信号 SIGIO 发 送 给 相应 的 进程 或 进程 组 。 

80-88 FIONREAD 返 回 接收 缓存 中 的 可 读 字 节 数 。SIOCSPGRP 设 置 与 插口 相关 的 进程 组 ， 

SIOCGPGRP 则 是 得 到 它 。so_pgid 作 为 我 们 刚 讨论 过 的 SIGTO 信 号 的 目标 进程 或 进程 组 ， 

当 有 带 外 数据 到 达 播 口 时 ， 则 作为 SIGURG 信 和 号 的 目标 进程 或 进程 组 。 

89-92 如 果 插 口 正 处 于 带 外 数据 的 同步 标记 ， 则 SIOCATMARK 返 回 真 ; 否则 返回 假 。 
ioct1l 命 令 ，FIOxxx 和 SIOxxx 常 量 ， 有 一 个 内 部 结构 ， 如 图 17-19 所 示 。. 





图 17-19 ioct1 命 令 的 内 部 结构 


55 soo, ioctl(fp, cmd, data, p) 
56 struct file *fp; 

57 int cmd; 

58 caddr t data; 

59 struct proc *p; 


60 ( 

61 struct socket *so = (struct socket *) fp-»f data; 
62 switch (cmd) ( 

63 case FIONBIO: 

64 if (*(int *) data) 

65 so->80_8tate |= SS, NBIO; 

66 else 

67 SO-»80 8tate &- ^SS NBIO; 

68 return (0); 

69 case FIOASYNC: 

70 if (*(int *) data) ( 

71 SOo-»sOo state |= SS, ASYNC; 

72 So-»so,rcv.sb flags |= SB ASYNC; 


图 17-20 ”soo_ioct1 函 数 
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73 So-»so snd.sb flags |= SB ASYNC; 

74 ) else ( 

75 So-»so state &- "SS, ASYNC; 

76 SO-»S0 rcv.sb flags &= ^SB, ASYNC; 

77 So-»so snd.sb flags &- "SB ASYNC; 

78 } 

79 return (0); 

80 case FIONREAD: 

81 *(int *) data = Sso-»so rcv.sb cc; 

82 return (0); 

83 case SIOCSPGRP: 

B4 So-»so pgid - *(int *) data; 

85 return (0); 

86 case SIOCGPGRP: 

87 *(int *) data = so-»so pgid; 

88 return (0); 

89 case SIOCATMARK: 

90 *(int *) dàta = (so-»so state & SS, RCVATMARK) !- 0; 
91 return (0); 

92 } 

93 /* 

94 * Interface/routing/protocol specific ioctls: 
95 * interface and routing ioctls should have a 
96 * different entry since a socket's unnecessary 
97 */ 

98 if (IOCGROUP(cmd) == 'i') 

99 return (ifioctl(so, cmd, data, p));: 
100 if (IOCGROUP(cemd) == 'r') 
101 return (rtioctl(cmd, data, p)); 
102 return ((*so-»so. proto-»pr usrreq) (so, PRU.CONTROL, 
103 (struct mbuf *) cmd, (struct mbuf *) data, (struct mbuf *) 0)); 
104 ) 

图 17-20 (£&) 


如 果 将 ioct1 的 第 三 个 参数 作为 输入 ， 则 
设置 input。 如 果 访 参数 作为 输出 ， 则 output 被 
置 位 。 如 果 不 用 该 参数 ， 则 void 被 置 位 。 





图 17-21 ioctl 命 令 宏 


中 的 元 素 。 


IOCPARM_LEN (cmd) 返回 cmd 中 的 length 


日 ad . BEE IOCBASECMD (cmd) length 设 为 0 的 命令 
length BRIKET). 相关 的 命令 在 同一 IOCGROUP (cmd) 返回 cmd 中 的 groxP 


个 group 中 但 每 一 个 命令 在 组 中 都 有 各 自 的 
number。 图 17-21 中 的 宏 用 来 解析 ioct1l 命 令 


93-104 ” 宏 IOCGROUP 从 命令 中 得 到 8 bit 的 group。 接 口 命令 由 ifioct1 处 理 。 选 路 命令 由 


rtioct1 处 理 。 通 过 PRU_CONTROL 请 求 将 所 有 其 他 的 命令 传递 给 插口 协议 。 


正如 我 们 在 第 19 章 中 描述 的 ，Net/2 定 义 了 一 个 新 的 访问 路 由 选择 表 接 口 ， 在 该 接 
口中 ， 报 文 是 通过 一 个 在 PF_ROUTE 域 中 产生 的 插口 传递 给 路 由 选择 子 系统 。 用 这 种 
方法 来 代替 这 里 讨论 的 ioct1。 在 不 兼容 的 内 核 中 ，TEioctI 总 是 返回 ENOTSUPP。 


17.6 getsockname 系 统 调用 


getsockname 系 统 调用 的 原型 是 : 
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int getsockname (int fd, caddr_t asa, int * alen); 


getsockname 得 到 绑 定 在 播 口外 上 的 本 地 地 址 ， 并 将 它 存 人 asa 指 向 的 缓存 中 。 当 在 一 
个 隐 式 的 绑 定 中 内 核 选 择 了 一 个 地 址 ， 或 在 一 个 显 式 的 bina 调 用 中 进程 指定 了 一 个 通配符 地 
址 (2.2.5 节 ) 时 ， 该 函数 就 很 有 用 。getsockname 系 统 调用 如 图 17-22 所 示 。 


uipc syscalls.c 


682 struct getsockname args ( 
683 int fdes; 
684 caddr t asa; 
685 int *alen; 
686 }; 
687 getsockname(p, uap, retval) 
688 struct proc *p; 
689 struct getsockname args *uap; 
690 int *retval; 
691 ( 
692 struct file *fp; 
693 struct socket *so; 
694 struct mbuf *m; 
695 int len, error; 
696 if (error - getsock(p-»p fd, uap-»fdes, &fp)) 
697 return (error); ] 
698 if (error - copyin((caddr t) uap-»alen, (caddr, t) & len, sizeof(len))) 
699 return (error); 
700 SO = (struct socket *) fp-»f data; 
701 m - m getclr(M WAIT, MT SONAME); 
702 if (m == NULL) 
703 return (ENOBUFS); 
704 if (error - (*so-»so proto-»pr usrreq) (so, PRU, SOCKADDR, 0, m, 0)) 
705 goto bad; 
706 if (len » m-»m len) 
707 len - m-»m len; 
708 error = copyout (mtod(m, caddr, t), (caddr t) uap-»asa, (u int) len); 
709 if (error -- 0) 
710 error = copyout((caddr t) & len, (caddr t) uap-»alen, 
711 sizeof(len)); 
712 bad: 
713 m. freem(m); 
714 return (error); 
715 } 
uipc, syscalls.c 





图 17-22 getsockname 系 统 调 用 


682-715 getsock 返 回 描述 符 的 file 结 构 。 将 进程 指定 的 缓存 的 长 度 赋 给 1en。 这 是 我 们 第 
一 次 看 到 对 m_getclr 的 调用 : 该 函数 分 配 一 个 标准 的 mbuf， 并 调用 bzero 清 零 。 当 协议 收 
到 PRU_SOCKADDR 请 求 时 ， 协 议 处 理 层 负责 将 本 地 地 址 存 人 m。 

如 果 地 址 长 度 大 于 进程 提供 的 缓存 的 长 度 ， 则 返回 的 地 址 将 被 截 掉 。* alen 等 于 实际 返 


回 的 字 节 数 。 最 后 ， 释 放 mbuf， 并 返回 。 
17.7 getpeername 系 统 调用 
getpeername 系 统 调 用 的 原型 是 : 


int getpeername(int fd, caddr t asa, int *alen); 
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getpeername 系 统 调 用 返回 指定 播 口上 连接 的 远 端 地 址 。 当 一 个 调用 accept 的 进程 通 
过 fork 和 exec 启 动 一 个 服务 器 时 ( 即 、 任 何 被 ijnetad 启 动 的 服务 器 )， 经 常 要 调用 这 个 函数 。 
服务 器 不 能 得 到 accept 返 回 的 远 端 地 址 ， 而 只 能 调用 getpeername。 通 常 ， 要 在 应 用 的 访 
问 地 址 表 查 找 返 回 地 址 ， 如 果 返 回 地 址 不 在 访问 表 中 ， 则 连接 将 被 关闭 。 

某 些 协议 ， 如 TP4， 利 用 这 个 函数 来 确定 是 否 拒绝 或 证 实 一 个 进入 的 连接 。 在 TP4 中 ， 
accept 返 回 的 播 口 上 的 连接 是 不 完整 的 ， 必 须 经 证 实 之 后 才 算 连接 成 功 。 基 于 
getpeername 返 回 的 地 址 ， 服 务 器 能 够 关闭 连接 或 通过 发 送 或 接收 数据 来 间接 证 实 连接 。 
这 一 特点 与 TCP 无 关 ， 因 为 TCP 必 须 在 三 次 握手 完成 之 后 ，accept 才 能 建立 连接 。 图 17-23 
列 出 了 getpeezrname 国 数 的 代码 。 


719 struct getpeername args ( uipc. syscalls.c 
720 int fdes; 

721 caddr_t asa; 

722 int *alen; 

723 }; 

724 getpeername(p, uap, retval) 

725 struct proc *p; 

726 struct getpeername args *uap; 

727 int *retval; 

728 ( 

729 struct file *fp; 

730 struct socket *so; 

731 struct mbuf *m; 

732 int len, error; 

733 if (error = getsock(p-»p fd, uap-»-fdes, &fp)) 

734 return (error); 

735 SO - (struct socket *) fp-»f data; 

736 if ((so-»so,state & (SS ISCONNECTED | SS ISCONFIRMING)) == 0) 

737 return (ENOTCONN); 

738 if (error = copyin((caddr t) uap-»alen, (caddr t) & len, sizeof(len))) 
739 return (error); 

740 m = m getclr(M WAIT, MT. SONAME); 

741 if (m == NULL) 

742 return (ENOBUFS); 

743 if (error -'(*so-»so, proto-»pr, usrreq) (so, PRU, PEERADDR, 0, m, 0)) 
744 goto bad; 

745 if (len » m-»m len) 

746 len = m-»m len; 

747 if (error = copyout(mtod(m, caddr t), {caddr_t) uap-»asa, (u int) len)) 
748 goto bad; 

749 error - copyout((caddr t) & len, (caddr t) uap-»alen, sizeof(len)); 
750 bad: 

751 m freem(m); 

752 return (error); 

753 } 


uipc, syscalls.c 





图 17-23 getpeername 系 统 调 用 


719-753 图 中 列 出 的 代码 与 getsockname 的 代码 是 一 样 的 。getsock 获 取 播 口 对 应 的 file 
结构 ， 如 果 播 口 还 没有 同 对 方 建立 连接 或 连接 还 没有 证 实 (如 、TP4)， 则 返回 ENOTCONN。 如 
果 已 建立 连接 ， 则 从 进程 那里 得 到 缓存 的 大 小 ， 并 分 配 一 块 mbuf 来 存储 地 址 。 发 送 
PRU_PEERADDR 请 求 给 协议 层 来 获取 远 端 地 址 。 将 地 址 和 地 址 的 长 度 从 内 核 的 mbuf 中 复制 到 
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进程 提供 的 缓存 中 。 释 放 mbuf， 并 返回 。 
17.8 小 结 


本 章 中 ， 我 们 讨论 了 六 个 修改 插口 功能 的 函数 。 插 口 选 项 由 setsockopt 和 getsockopt 
函数 处 理 。 其 他 的 选项 ， 其 中 有 些 不 仅仅 用 于 播 口 ， 由 fcnt1I 和 iocti 处 理 。 最 后 ， 通 过 
getsockname 和 getpeername 来 获取 连接 信息 。 


习题 


17.1 为 什么 选项 受 标准 mbuf 大 小 (MHLEN, 128 个 字 节 ) 的 限制 ? . 

17.2 为 什么 图 17-7 中 的 最 后 一 段 代 码 能 处 理 SoO_LINGER 选 项 ? 

17.3 图 17-9 中 用 来 测试 timeval 结 构 的 代码 有 些 问 题 ， 因 为 tv->tv_sec * hz 可 能 会 
溢出 。 请 对 这 段 代 码 作 些 修改 来 解决 这 个 问题 。 


第 18 章 ”Radix 树 路 由 表 


18.1 引言 


由 IP 完 成 的 路 由 选择 是 一 种 选 路 机 制 ， 它 通过 搜索 路 由 表 来 确定 从 哪个 接口 把 分 组 发 送 
出 去 。 它 与 选 路 策略 (routing policy) 不 一 样 ， 选 路 策略 是 一 组 规则 的 集合 ， 这 些 规则 用 来 确定 
哪些 路 由 可 以 编 入 到 路 由 表 中 。Net/3 内 核实 现 选 路 机 制 ， 而 选 路 守护 进程 ， 典 型 地 如 
routed 或 gated， 实 现 选 路 策略 。 由 于 分 组 转发 是 频繁 发 生 的 (一 个 繁忙 的 系统 每 秒 要 转发 
成 百 上 千 个 分 组 )， 相 对 而 言 ， 选 路 策略 的 变化 要 少 些 ， 因 此 路 由 表 的 结构 必须 能 够 适应 这 种 
情况 。 

关于 路 由 选择 的 详细 情况 ， 我 们 分 三 章 进 行 讨论 : 

。 本章 将 讨论 Net/3 分 组 转发 代码 所 使 用 的 Radix 树 路 由 表 的 结构 。 每 次 发 送 或 转发 分 组 时 ， 

IP 都 将 查看 该 表 ( 发 送 时 分 组 需要 查看 该 表 ， 是 因为 IP 必 须 决 定 哪 个 本 地 接口 将 接收 该 分 

组 )。 

。 第 19 章 着 重 讨论 内 核 与 Radix 树 之 间 的 接口 函数 以 及 内 核 与 选 路 进程 (通常 指 实现 选 路 策 

略 的 选 路 守护 进程 ) 之 间 交 换 的 选 路 消息 。 进 程 可 以 通过 这 些 消 息 来 修改 内 核 的 路 由 表 

(添加 路 由 、 删 除 路 由 等 )， 并 且 当 发 生 了 一 个 异步 事件 ， 可 能 影响 到 路 由 策略 (如 收 到 重 

定向 ， 接 口 断 开 等 ) 时 ， 内 核 也 通过 这 些 消息 来 通知 守护 进程 。 

* 第 20 章 给 出 了 内 核 与 进程 之 间 交 换 选 路 消息 时 使 用 的 选 路 插口 。 


18.2 路 由 表 结 构 


在 讨论 Net/3 路 由 表 的 内 部 结构 之 前 ， 我 们 需要 了 解 一 下 路 由 表 中 包含 的 信息 类 型 。 图 18-1 
是 图 1-17( 作 者 以 太 网 中 的 四 个 系统 ) 的 下 半 部 分 。 
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以 太 网 ，140.252.13.0 
图 18-1 路 由 表 例 子 中 使 用 子 网 


图 18-2 给 出 了 图 18-1 中 bsdi 上 的 路 由 表 。 

为 了 能 够 更 容易 地 看 出 每 个 表 项 中 所 设置 的 标志 ， 我 们 已 经 对 netstat 输 出 的 “Flags” 
列 进行 了 修改 。 

该 表 中 的 路 由 是 按照 下 列 过 程 添加 的 。 其 中 ， 第 1、3、5、8 和 第 9 步 是 在 系统 的 初始 化 阶 
段 执 行 /etc/netstart shel11 脚 本 时 完成 的 。 
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bsdi $ netstat -rn 
Routing tables 


Internet: 

Destination Gateway Flags Refs Use Interface 
default 140.252.13.33 UG S 0 3 le0 
127 127.0.0.1 UG S R ~ 0 2 100 
127.0.0.1 127.0.0.1 UH 1 55  1o0 
128.32.33.5 140.252.13.33 UGHS 2 16 1e0 
140.252.13.32 link#1 U c 0 0 1e0 
140.252.13.33 8:0:20:3:£6:42 UH L 11 55146 le0 
140.252.13.34 0:0:c0:c2:9b:26 UH L 0 3 1le0 
140.252.13.35 0:0:c0:6£:24d:40 UH L 1 12 100 
140.252.13.65 140.252.13.66 UH 0 41 s10 
224 link#1 U C 0 0 1le0 
224.0.0.1 link&1 UH L 0 5 le0 


图 18-2 主机 bsdai 上 的 路 由 表 


1) 默认 路 由 是 由 route 命 令 添 加 的 。 该 路 由 通 往 主 机 sun(140 252 13 33)， 主 机 sun 拥 有 
一 条 到 Internet 的 PPP 链 路 。 

2) 到 网 络 127 的 路 由 表 项 通常 是 由 选 路 守护 进程 (如 gated) 创 建 的 ， 也 可 以 通过 
/etc/netstart 文 件 中 的 route 命 令 将 其 添加 到 路 由 表 中 。 该 表 项 使 得 所 有 发 往 该 网 络 的 
分 组 都 将 被 环 回 驱 动 器 (图 5-27) 拒 绝 ， 但 发 往 主 机 127.0.0.1 的 分 组 除外 ， 因 为 对 于 该 类 分 组 ， 
在 下 一 步 中 添加 的 一 条 更 特殊 的 路 由 将 屏蔽 本 路 由 表 项 的 作用 。 

3) 到 环 回 接口 (127.0.0.1) 的 表 项 是 由 ifconfig 命 令 配 置 的 。 

4) 到 vangogh.cs.berkeley .edu(128.32.33.5) 的 表 项 是 用 route 命 令 手工 创建 的 。 
该 路 由 指定 的 路 由 器 与 默认 路 由 所 指定 的 相同 (都 是 140.252.13.33)。 但 是 在 拥有 一 条 替代 默认 
路 由 的 通 往 特定 主机 的 路 由 之 后 ， 我 们 就 能 把 路 由 度量 存储 在 该 路 由 表 项 中 。 这 些 度量 能 够 
可 以 由 管理 者 选择 设置 。 每 次 TCP 建 立 一 条 到 达 目 的 主机 的 连接 时 都 使 用 该 度量 ， 并 且 在 连 
接 关 闭 时 ， 由 TCP 对 其 进行 更 新 。 我 们 将 在 图 27-3 中 详细 描述 这 些 度量 。 

5) 接口 1e0 的 初始 化 是 由 ifconfig 命 令 完成 的 。 该 命令 会 在 路 由 表 中 增加 一 条 到 
140.252.13.32 网 络 的 表 项 。 

6) 到 以 太 网 上 另 两 台 主 机 sun(140.252.13.33) 和 svr4(140.252.13.34) 的 路 由 表 项 是 由 ARP 
创建 的 ， 见 第 21 音 。 它 们 都 是 临时 路 由 ， 经 过 一 段 时 间 后 ， 如 果 还 未 被 使 用 ， 它 们 就 会 被 自 
动 删除 。 

7) 到 本 机 (140.252.13.35) 的 表 项 是 在 第 一 次 引用 本 机 IP 地 址 时 创建 的 。 该 接口 是 一 个 环 回 ， 
也 就 是 说 ， 任 何 发 往 本 机 IP 地 址 的 数据 报 将 从 内 部 反 送 回来 。4.4BSD 中 包含 了 自动 创建 该 路 
由 的 新 功能 ， 见 第 21.13 节 。 

8) 到 主机 140.252.13.65 的 表 项 是 在 ifconfig 配 置 SLIP 接 口 时 创建 的 。 

9) 通过 以 太 网 接口 到 达 网 络 244 的 路 由 是 由 route 命 令 添加 的 。 

10) 到 多 播 组 224.0.0.1( 所 有 主机 的 组 ，all-host group) 的 表 项 是 Ping 程 序 在 连接 224.0.0.1 即 
“Ping 224.0.0.1” 时 创建 的 。 它 也 是 一 条 临时 路 由 ， 如 果 在 一 段 时 间 内 未 被 使 用 ， 就 会 被 自动 
删除 。 

图 18-2 中 的 “Flags” 列 需要 简单 地 说 明 一 下 。 图 18-25 列 出 了 所 有 可 能 的 标志 。 

U 该 路 由 存在 。 
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G 该 路 由 通 向 一 个 网 关 ( 路 由 器 )。 这 种 路 由 被 称 为 间接 路 由 。 如 果 没 有 设置 本 标志 ， 则 
表明 路 由 的 目的 地 与 本 机 直接 相连 ， 称 为 直接 路 由 。 

H 该 路 由 通 往 一 台 主 机 ， 也 就 是 说 ， 目 的 地 址 是 一 个 完整 的 主机 地 址 。 如 果 没 有 设置 本 
标志 ， 则 路 由 通 往 一 个 网 络 ， 目 的 地 址 是 一 个 网 络 地 址 : 一 个 网 络 号 ， 或 一 个 网 络 号 
与 子 网 号 的 组 合 。netstat 命 令 并 不 区 分 这 一 点 ， 但 每 一 条 网 络 路 由 中 都 包含 一 个 网 
络 掩 码 ， 而 主机 路 由 中 则 隐 含 了 一 个 全 1 的 掩 码 。 

S 该 路 由 是 静态 的 。 图 18-2 中 route 命 令 创 建 的 三 个 路 由 表 项 是 静态 的 。 

C 该 路 由 可 被 克隆 (clone) 以 产生 新 的 路 由 。 在 本 路 由 表 中 有 两 条 路 由 设置 了 这 个 标志 : 
一 条 是 到 本 地 以 太 网 (140.252.13.32) 的 路 由 ，ARP 通 过 克隆 该 路 由 创建 到 以 太 网 中 其 
他 特定 主机 的 路 由 ; 另 一 条 是 到 多 播 组 224 的 路 由 ， 克 隆 该 路 由 可 以 创建 到 特定 多 播 
组 (如 224.0.0.1) 的 路 由 。 

L 该 路 由 含有 链 路 层 地 址 。 本 标志 应 用 于 单 播 地 址 和 多 播 地 址 。 由 ARP 从 以 太 网 路 由 克 
隆 而 得 到 的 所 有 主机 路 由 都 设置 了 本 标志 。 

R 环 回 驱动 器 (为 设 有 本 标志 的 路 由 而 设计 的 普通 接口 ) 将 拒绝 所 有 使 用 该 路 由 的 数据 报 。 
添加 带 有 拒绝 标志 的 路 由 的 功能 由 NET/2 提 供 。 它 提供 了 一 种 简单 的 方法 ， 米 防 

止 主机 向 外 发 送 以 网 络 127 为 目的 地 的 数据 报 。 参 见习 题 6.6。 


在 4.3BSD Reno 之 前 ， 内 核 将 为 IP 地 址 维护 两 个 不 同 的 路 由 表 : 一 个 针对 主机 路 由 ， 另 一 
个 针对 网 络 路 由 。 对 于 给 定 的 路 由 ， 将 根据 它 的 类 型 添加 到 相应 的 路 由 表 中 。 上 默认 路 由 被 存 
储 在 网 络 路 由 表 中 ， 其 目的 地 址 是 0.0.0.0。 查 找 过 程 隐 含 了 这 样 一 种 层次 关系 : 首先 查看 主 
机 路 由 表 ; 如 果 找 不 到 ， 则 查找 网 络 路 由 表 ; 如 果 仍 找 不 到 ， 则 查找 默认 路 由 。 仅 当 三 次 查 
找 都 失败 时 ， 才 认为 目的 地 不 可 达 。fLeffler et al. 1998] 的 第 11.5 节 描述 了 一 种 带 链表 结构 的 
hash 表 ， 该 hash 表 同时 用 于 NeU1i 中 的 主机 路 由 表 和 网 络 路 由 表 。 

4.3BSD Reno [Sklower 1991] 的 变化 主要 与 路 由 表 的 内 部 表示 有 关 。 这 些 变化 允许 相同 的 
路 由 表 函 数 访 问 不 同 协议 栈 的 路 由 表 ， 如 OSI 协 议 ， 它 的 地 址 是 变 长 的 ， 这 一 点 与 长 度 固定 为 
32 位 的 耳 地 址 不 同 。 为 了 提高 查询 速度 ， 路 由 表 的 内 部 结构 也 做 了 变动 。 

Net/3 路 由 表 采 用 Patricia 树 结构 [Sedgewick 1990] 来 表示 主机 地 址 和 网 络 地址 (Patricia 支持 
“从 文字 数字 的 编码 中 提取 信息 的 Patricia 算 法 ”)。 待 查找 的 地 址 和 树 中 的 地 址 都 被 看 成 比特 
序列 。 这 样 就 可 以 用 相同 的 函数 来 查找 和 维护 不 同类 型 的 树 ， 如 : 含有 32 bit 定 长 下 地 址 的 树 、 
含有 48 bit 定 长 XNS 地 址 的 树 以 及 一 棵 含有 变 长 OSI 地 址 的 树 。 

使 用 Patricia 树 构造 路 由 表 的 思想 应 归功 于 Van Jacobson 的 [Sklower 1991]。 


举 个 例子 就 可 以 很 容易 地 描述 出 这 个 算法 。 查 找 路 由 表 的 目标 就 是 为 了 找到 一 个 最 能 匹 
配给 定 目标 的 特定 地 址 。 我 们 称 这 个 给 定 的 目标 为 查找 键 (search key)。 所 谓 最 能 匹配 的 地 址 ， 
也 就 是 说 ， 一 个 能 够 匹配 的 主机 地 址 要 优 于 一 个 能 够 匹配 的 网 络 地 址 ; 而 一 个 能 够 匹配 的 网 
络 地 址 要 优 于 默认 地 址 。 

每 条 路 由 表 项 都 有 一 个 对 应 的 网 络 掩 码 ， 尽 管 在 主机 路 由 中 没有 存储 掩 码 ， 但 它 隐 含 了 
一 个 全 1 比特 的 掩 码 。 我 们 对 查找 键 和 路 由 表 项 的 掩 码 进行 逻辑 与 运算 ， 如 果 得 到 的 值 与 该 路 
由 表 项 的 目的 地 址 相同 ， 则 称 该 路 由 表 项 是 匹配 的 。 对 于 某 个 给 定 的 查找 键 ， 可 能 会 从 路 由 
表 中 找到 多 条 这 样 的 匹配 路 由 ， 所 以 在 单个 表 同 时 包含 网 络 路 由 和 主机 路 由 的 情况 下 ， 我 们 
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必须 有 效 地 组 织 该 表 ， 使 得 总 能 先 找 到 那个 更 能 匹配 的 路 由 。 

让 我 们 来 讨论 图 18-3 给 出 的 例子 。 图 中 给 出 了 两 个 查找 键 ， 分 别 是 127.0.0.1 和 127.0.0.2。 
为 了 更 容易 地 说 明 逻 辑 与 运算 ， 图 中 同时 给 出 了 它们 的 十 六 进 制 值 。 图 中 给 出 的 两 个 路 由 表 
项 分 别 是 主机 路 由 127.0.0.1( 它 隐 含 了 一 个 全 1 的 掩 码 9xff£ffffff) 和 网 络 路 由 127.0.0.0( 它 的 
掩 玛 是 0xff000000)。 


查找 键 =127.0.0.1 | 查找 键 =127.0.0.2 
主机 路 由 | ”网 络 路 由 “| 主机 路 由 


查找 键 7f000001 7f000001 | 7000002 71000002 


路 由 表 键 7f000001 7f000001 站  7f000001 7f000000 
路 由 表 掩 码 ffffffff ft000000 ffffffff ff000000 
1 和 3 的 逻辑 与 7f000001 7f000000 7f000002 7f000000 





图 18-3 分 别 以 127.0.0.1 和 127.0.0.2 为 查找 键 的 路 由 表 查 找 示例 


其 中 两 个 路 由 表 项 都 能 够 匹配 查找 键 127.0.0.1， 这 时 路 由 表 的 结构 必须 确保 能 够 先 找到 
更 能 匹配 该 查找 键 的 表 项 (127.0.0.1)。 

图 18-4 给 出 了 对 应 于 图 18-2 的 Net/3 路 由 表 的 内 部 表示 。 执 行 带 -A 标志 的 netstat 命 令 可 
以 导出 路 由 表 的 树 型 结构 ， 图 18-4 就 是 根据 导出 的 结果 而 建立 的 。 


SET pit 32 | 


0x00000000 


obit33 9 . 9ffT bit 33 9 


( end ) zd | bit 63 |7 oft vit 36 om off pit 35 on 
Oxff000000 | bit 36 | | bit 35 | 
0x00000000 ( C y) C off on off [bits | on (end ) 


127.0.0.0 127001 12832335 Oxff000000 
O0xff000000 
off vitz on 
OxFfffffeo 140.252.13.65 224.0.0.0 2240014 
Oxff000000 


ST bites |22 ET bit 63 |F 


140.252.13.32 140.252.13.33 140.252.13.34 140.252.13.35 
Oxffffffe0 


图 18-4 对 应 于 图 18-2 的 Ney3 路 由 表 
标 有 “end” 的 两 个 阴影 框 是 该 树 结构 中 带 有 特殊 标志 的 叶 结 点 ， 该 标志 代表 树 的 端点 。 
左边 的 那个 拥有 一 个 全 0 键 ， 而 右边 的 拥有 一 个 全 1 键 。 左 边 的 两 个 标 有 “end” 和 “default 


的 框 又 在 一 起 ， 这 两 个 框 有 特殊 的 意义 ， 它 们 与 重复 键 有 关 ， 具 体内 容 可 参考 18.9 市 。- 
方 角 框 被 称 为 内 部 结 点 (internal node) 或 简称 为 结 点 (node)， 圆 角 框 被 称 为 叶子 。 每 一 个 
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内 部 结 点 对 应 于 测试 查找 键 的 一 个 比特 位 ， 其 左右 各 有 一 个 分 枝 。 每 一 个 叶子 对 应 于 一 个 主 
机 地 址 或 者 对 应 于 一 个 网 络 地 址 。 如 果 在 叶子 下 面 有 一 个 十 六 进 制 数 ， 那 么 这 个 叶子 就 对 应 
于 一 个 网 络 地 址 ， 该 十 六 进 制 数 就 是 叶子 的 网 络 掩 码 。 如 果 在 叶子 下 面 没 有 十 六 进 制 的 掩 码 ， 
那么 这 个 叶子 就 是 一 个 主机 地 址 ， 其 隐 含 的 掩 码 是 0xffffffff。 

有 一 些 内 部 结 点 也 含有 网 络 掩 码 ， 在 后 面 的 学 习 中 ， 我 们 将 会 了 解 这 些 掩 码 在 回溯 过 程 
中 是 如 何 使 用 的 .图 中 的 每 一 个 结 点 还 包含 了 一 个 指向 其 父 结 点 的 指针 (没有 在 图 中 表示 出 来 )， 
它 能 使 树 结构 的 回 滴 、 删 除 及 非 递 妇 操 作 更 加 方便 。 

比特 比较 是 运用 在 插口 地 址 结构 上 的 ， 因 此 ， 在 图 18-4 中 给 出 的 比特 位 置 是 从 插口 地 址 
结构 中 的 起 始 位 置 开 始 算 的 。 | 

m 0 63 


8 


l 字 节 1 
图 1 18-5 Internet 插 口 地 址 结构 的 比特 位 置 


IP 地 址 的 最 高 位 比特 是 比特 32， 最 低位 是 比特 63。 此 外 还 列 出 了 长 度 是 16， 地 址 族 为 
2(AF_INET)， 这 两 个 数值 在 我 们 所 列举 的 例子 中 将 会 遇 和 到。 

为 了 解释 这 些 例子 , 还 需要 给 出 树 中 不 同 IP 地 址 的 比特 表示 形式 。 它们 都 被 列 在 图 18-6 中 ， 
该 图 还 给 出 了 下 面 例 子 中 要 用 到 的 一 些 其 他 IP 地 址 的 比特 表示 形式 。 该 图 采用 了 加 粗 的 字体 
来 表示 图 18-4 中 分 支点 所 对 应 的 比特 位 置 。 

现在 我 们 举 一 些 特定 的 例子 来 说 明 路 由 表 的 查找 过 程 是 如 何 完成 的 。 

1. 与 主机 地 址 匹配 的 例子 

假定 主机 地 址 127.0.0.1 是 查找 键 一 一 待 查找 的 目的 地 址 。 比 特 32 为 0， 因 此 ， 沿 树 顶 点 向 
左 分支 继 续 查找 ， 到 下 一 个 结 点 。 比 特 33 为 1， 因 此 ， 从 该 结 点 右 分 支 继续 查找 ， 到 下 一 个 结 
点 。 比 特 63 为 1， 因 此 ， 从 右 分 支 继续 查找 ， 到 下 一 个 结 点 。 而 下 一 个 结 点 是 个 叶子 ， 此 时 查 
找 键 (127.0.0.1) 与 叶子 中 的 地 址 (127.0.0.1) 相 比较 。 它 们 完全 匹配 ， 这 样 查找 函数 就 可 以 返回 
该 路 由 表 项 。 


| | 1 — 3E | amem 





























































3333 3333 4444 4444 4455 5555 5555 6666 m 
位 置 | 2345 6789 0123 4567 8901 2345 6789 0123 
0000 0001 0010 0000 0011 10.12.3 

0111 0000 0000 0000 0000 0000 0000 0001 | 112.0.0.1 
0111 1111 0000 0000 0000 0000 0000 0000 | 127.00.0 
0111 1111 0000 0000 0000 0000 0000 0001 127.0.0.1 
0111 1111 0000 0000 0000 0000 0000 0011 | 127.00.3 
1000 0000 0010 0000 0010 0001 0000 0101 | 128.3233. 
1000 0000 0010 0000 0010 0001 0000 0110 | 1283233.6 
1000 1100 1111 1100 0000 1101 0010 0000 | 140.252.13.32 
1000 1100 111i 1100 0000 1101 0010 0001 140.252.13.33 
1000 1100 1111 1100 0000 1101 0010 0010 | 140.252.13.34 
1000 1100 1111 1100 0000 1101 0010 0011 | 140.252.13.35 
1000 1100 1111 1100 0000 1101 0100 0001 | 140252.13.65 
1110 0000 0000 0000 0000 0000 0000 0000 | 2240.0.0 






0000 0000 0000 0000 0001 | 224.0.0.1 











图 18-6 图 18-2 和 图 18-4 中 IP 地 址 的 比特 表示 形式 
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2. 与 主机 地 址 匹配 的 例子 

再 假定 查找 键 是 地 址 140.252.13.35。 比 特 32 为 1， 因 此 ， 沿 树 顶点 向 右 分 支 继 续 查 找 。 上 比 
特 33 为 0， 上 比特 36 为 1， 比 特 57 为 0， 比 特 62 为 1， 比 特 63 为 1， 因 此 ， 查 找 在 底部 标 有 
140.252.13.35 的 叶子 处 终止 。 查 找 键 与 路 由 表 键 完全 匹配 。 

3. 与 网 络 地 址 匹配 的 例子 

假定 查找 键 是 127.0.0.2。 比 特 32 为 0， 比 特 33 为 1， 比 特 63 为 0， 因 此 ， 查 找 在 标 有 
127.0.0.0 的 叶子 处 终止 。 查 找 键 和 路 由 表 键 并 没有 完全 匹配 ， 因 此 ， 需 要 进一步 看 它 是 不 是 
一 个 能 够 匹配 的 网 络 地 址 。 对 查找 键 和 网 络 掩 码 (0xff000000) 进 行 罗 辑 与 运算 ， 得 到 的 结 
果 与 该 路 由 表 键 相同 ， 即 认为 该 路 由 表 项 能 够 匹配 。 

4. 与 默认 地 址 匹配 的 例子 

假定 查找 键 是 10.1.2.3。 比 特 32 为 0， 比 特 33 为 0， 因 此 ， 查 找 在 标 有 “end” 和 “default” 
并 带 有 重复 键 的 叶子 处 终止 。 在 这 两 个 叶子 中 重复 的 路 由 表 键 是 0.0.0.0。 查 找 键 与 路 由 表 键 
值 没有 完全 比 配 ， 因 此 ， 需 要 进一步 看 它 是 不 是 一 个 能 够 匹配 的 网 络 地 址 。 这 种 匹配 运算 要 
对 每 个 含 网 络 掩 码 的 重复 键 都 试 一 遍 。 第 一 个 键 ( 标 有 end) 没 有 网 络 掩 码 ， 可 以 跳 过 不 查 。 第 
二 个 键 (默认 表 项 ) 有 一 个 0x00000000 的 掩 码 。 查 找 键 和 这 个 掩 码 进 行 逻辑 与 运算 ， 所 得 结 
果 和 路 由 表 键 (0) 相 等 ， 即 认为 该 路 由 表 项 能 够 匹配 。 这 样 默认 路 由 就 被 用 做 匹配 路 由 。 

5. 带 回 漳 过 程 的 与 网 络 地 址 匹配 的 例子 

假定 查找 键 是 127.0.0.3。 比 特 32 为 0， 比 特 33 为 1， 比 特 63 为 1， 因 此 ， 查 找 在 标 有 
127.0.0.1 的 叶子 处 终止 。 查 找 键 和 路 由 表 键 没有 完全 匹配 。 由 于 这 个 叶子 没有 网 络 掩 码 ， 无 
法 进行 网 络 掩 码 匹 配 的 尝试 。 此 时 就 要 进行 回 渊 。 

回溯 算法 在 树 中 向 上 移动 ， 每 次 移动 一 层 。 如 果 遇 到 的 内 部 结 点 含有 掩 码 ， 则 对 查找 关 
键 字 和 该 掩 码 进行 逻辑 与 运算 ， 得 到 一 个 键 值 ， 然 后 以 这 个 键 值 作为 新 的 查找 键 ， 在 含 该 掩 
码 的 内 部 结 点 为 开始 的 子 树 中 进行 另 一 次 查找 ， 看 是 否 能 找到 匹配 的 结 点 。 如 果 找 不 到 ， 则 
回 斋 过 程 继续 沿 树 上 移 ， 直 到 到 达 树 的 顶点 。 

在 这 个 例子 中 ， 查 找 上 移 一 县 到 达 比 特 63 对 应 的 结 点 ， 该 结 点 含有 一 个 掩 码 。 于 是 对 查 
找 键 和 掩 码 (0xff000000) 进 行 逻辑 与 运算 ， 得 到 一 个 新 的 查找 键 ， 其 值 为 127.0.0.0。 然 后 从 
该 结 点 开始 查找 127.0.0.0。 比 特 63 为 0， 因 此 ， 沿 左 分 支 到 达标 有 127.0.0.0 的 叶子 上 。 用 新 的 
查找 键 与 路 由 表 键 相 比 较 ， 它 们 是 相等 的 ， 因 此 认为 这 个 叶子 是 匹配 的 。 

6. 多 层 回 溯 的 例子 

假定 查找 键 是 112.0.0.1。 比 特 32 为 0， 比 特 33 为 1， 比 特 63 为 1， 因 此 ， 查 找 在 标 有 
127.0.0.1 的 叶子 处 终止 。 该 键 与 查找 键 不 相等 ， 并 且 路 由 表 项 中 设 有 网 络 掩 码 ， 因 此 需要 进 
行 回溯 。 

查找 过 程 向 上 移动 一 野 ， 到 达 比 特 63 对 应 的 结 点 ， 该 结 点 含有 一 个 掩 码 。 对 查找 关键 字 
和 该 掩 码 (0xff000000) 进 行 逻辑 与 运算 ， 然 后 再 从 这 个 结 点 开始 进一步 查找 。 在 新 的 查找 
键 中 比特 63 为 0， 因 此 ， 沿 左 分 支 到 达标 有 127.0.0.0 的 叶子 。 比 较 之 后 发 现 逻 辑 与 运算 得 到 的 
查找 键 (112.0.0.0) 和 路 由 表 键 并 不 相等 。 

因此 继续 向 上 回溯 一 层 ， 从 比特 63 对 应 的 结 点 上 移 到 比特 33 对 应 的 结 点 。 但 这 个 结 点 没有 
掩 码 ， 再 继续 向 上 回 滴 。 到 达 的 下 一 层 是 树 的 顶点 (比特 32)， 它 有 一 个 掩 码 。 对 查找 键 
(112.0.0.1) 和 读 掩 码 (0x00000000) 进 行 逻辑 与 运算 后 ， 从 该 点 开始 一 个 新 的 查找 。 在 新 的 查找 
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键 中 ， 比 特 32 为 0， 比 特 33 也 为 0， 因 此 ， 查 找 在 标 有 “end” 和 “default” 的 叶子 处 结束 。 通 过 
与 重复 键 列表 中 的 每 一 项 进行 比较 ， 发 现 默 认 键 与 新 的 查找 键 相 匹配 ， 因 此 采用 默认 路 由 。 

从 这 个 例子 中 可 以 知道 ， 如 果 在 路 由 表 中 存在 默认 路 由 ， 那 么 当 回 浏 最终 到 达 树 的 顶点 
时 ， 它 的 掩 码 为 全 0 比特 ， 这 使 得 查找 向 树 中 最 左边 叶子 的 方向 进行 搜索 ， 最 终 与 默认 路 由 相 
匹配 。 

7. 带 回溯 和 克隆 过 程 、 并 与 主机 地 址 相 匹 配 的 例子 

假定 查找 键 是 224.0.0.5。 比 特 32 为 1， 比 特 331， 比 特 35 为 0， 比 特 63 为 1， 因 此 ， 查 找 在 
标 有 224.0.0.1 的 叶子 处 结束 。 路 由 表 的 键 值 和 查找 关键 字 并 不 相等 ， 并 且 该 路 由 表 项 不 包含 
网 络 掩 码 ， 因 此 要 进行 回调 。 

回溯 向 上 移动 一 展 ， 到 达 比 特 63 对 应 的 结 点 。 这 个 结 点 含有 掩 码 0xff000000， 因 此 ， 
对 查找 键 和 该 掩 码 进 行 逻辑 与 运算 ， 产 生 一 个 新 的 查找 键 ， 即 224.0.0.0。 再 从 这 个 结 点 开始 
一 次 新 的 查找 。 在 新 的 查找 键 中 比特 63 为 0， 于 是 沿 左 分 支 到 达标 有 224.0.0.0 的 叶子 。 这 个 路 
由 表 键 和 逻辑 与 运算 得 到 的 查找 键 相 匹配 ， 因 此 这 个 路 由 表 项 是 匹配 的 。 

该 路 由 上 设置 了 “克隆 ”标志 ( 见 图 18-2)， 因 此 ， 以 224.0.0.5 为 地 址 创建 一 个 新 的 叶子 。 


新 的 路 由 表 项 是 : 
Destination Gateway Flags Refs Use Interface 
224.0.0.5 link#1 UHL 0 0 le0 


图 18-7 从 比特 35 对 应 的 结 点 开始 ， 给 出 了 图 18-4 中 
路 由 表 树 右边 部 分 的 新 的 排列 。 注 意 ， 无 论 何 时 向 树 中 
添加 新 的 叶子 ， 都 需要 两 个 结 点 : 一 个 作为 叶子 ， 另 一 
个 作为 测试 某 一 位 比特 的 内 部 结 点 。 

新 创建 的 表 项 就 被 返回 给 查找 224.0.0.5 的 调用 者 。 

8. 大 图 

图 18-8 是 一 张 比 较 大 的 图 ， 它 描述 了 所 有 涉及 到 的 
数据 结构 。 该 图 的 底部 来 自 于 图 3-32。 

现在 我 们 将 解释 图 中 的 几 个 要 点 ， 在 后 面 ， 本 章 还 
将 给 出 详细 的 阐述 。 

。rt_tables 是 指向 radix_node_head 结 构 的 Ne 24001 

指针 数组 。 每 一 个 地 址 族 都 有 一 个 数组 单元 与 之 9818-7 插入 224.0.0.5 路 由 表 项 后 

对 应 。rt_tables [AF_INET] 指向 Internet 路 由 — — 图 18-6 的 改动 

表 树 的 顶点 。 

。radix_node_head 结 构 包 含 三 个 radix_node 结 构 。 这 三 个 结构 是 在 初始 化 路 由 树 
时 创建 的 ， 中 间 的 是 树 的 顶点 。 它 对 应 于 图 18-4 中 最 上 端 标 有 “bit 32” 的 结 点 框 。 三 
个 radix_node 结 构 中 的 第 一 个 是 图 18-4 中 最 左边 的 叶子 (与 默认 路 由 共享 的 重复 )， 第 
三 个 结构 是 最 右边 的 叶子 。 在 一 个 空 的 路 由 表 中 ， 就 只 包含 这 三 个 radix_nodae 结 构 ， 
我 们 将 会 看 到 rn_inithead 函 数 是 如 何 构 建 它们 的 。 
全 局 变量 mask_rnhead 也 指向 一 个 radix_node_head 结 构 。 它 是 包含 了 所 有 掩 码 的 
一 棵 独立 树 的 首部 结构 。 观 察 图 18-4 中 给 出 的 八 个 掩 码 可 知 ， 有 一 个 掩 码 重复 了 四 次 ， 
有 两 个 掩 码 重复 了 一 次 。 通 过 把 掩 码 放 在 一 棵 单独 的 树 中 ， 可 以 做 到 对 每 一 个 掩 码 只 需 
要 维护 它 的 一 个 备份 即 可 。 
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。 路 由 表 树 是 用 rtentry 结 构 创建 的 ， 在 图 18-8 中 ， 有 两 个 rtentry 结 构 。 每 一 个 
rtentry 结 构 包 含 两 个 radix_node 结 构 ， 因 为 每 次 向 树 中 插入 一 个 新 的 路 由 时 ， 都 
需要 两 个 结 点 : 一 个 是 内 部 结 点 ， 对 应 于 某 一 位 测试 比特 ; 另 一 个 是 叶子 ， 对 应 于 一 个 
主机 路 由 或 一 个 网 络 路 由 。 在 每 一 个 rtentry 结 构 中 ， 给 出 了 内 部 结 点 对 应 的 要 测试 
的 那 位 比特 以 及 叶子 中 所 包含 的 地 址 。 


rt tables[]: radix node head() rtentry() ` inpcb{} 
un 
(127.0.0.1) 
radix node() 
radix node([) (bit 33) 


(left end) E 
radix node() 
(bit 32) 
radix node() 右 
(right end) 


mask rnhead: radix node head() 


radix node() 





i 
ol 
baad 


rtentry() 
radix node) 
(140.252.13.32) 


radix node() 
(bit 33) 








Fr 
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P- 

mm 

j 
v 
"a 
w 






ifnet: le softc[0]: sl .softc[0]: 


kaddr à1() 


| 
: 





图 18-8 路 由 表 中 涉及 的 数据 结构 


rtentry 结 构 中 的 其 余部 分 是 该 路 由 的 一 些 其 他 重要 信息 。 虽 然 我 们 只 给 出 了 该 结构 中 
的 一 个 指向 i fnet 结 构 的 指针 ， 但 在 这 个 结构 中 还 包含 了 指向 ifadqr 结 构 的 指针 、 该 路 由 的 
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标志 、 指 向 另 一 个 rtentry 结 构 的 指针 (如 果 该 路 由 是 一 个 非 直 接 路 由 ) 和 该 路 由 的 度量 等 等 。 
。 存 在 于 每 一 个 UDP 和 TCP 插 口 (图 22-1) 中 的 协议 控制 块 PCB( 见 第 22 章 ) 中 包含 了 一 个 指向 
rtentzry 结 构 的 route 结 构 。 每 次 发 送 一 个 卫 数 据 报时 ，UDP 和 TCP 输 出 函数 都 传递 一 
个 指向 PCB 中 route 结 构 的 指针 ， 作 为 调用 ip_output 的 第 三 个 参数 。 使 用 相同 路 由 
的 PCB 都 指向 相同 的 路 由 表 项 。 


18.8 选 路 插口 


在 4.3BSD Reno 的 路 由 表 做 了 变动 后 ， 路 由 子 系统 和 进程 间 的 交互 过 程 也 要 做 出 变动 ， 这 
就 引出 了 选 路 插口 (routing socket) 的 概念 。 在 4.3BSD Reno 之 前 ， 是 由 进程 (如 route 命 令 ) 通 
过 发 出 定 长 的 ioct1 来 修改 路 由 表 的 。4.3BSD Reno 采 用 新 的 PF_ROUTE 域 把 它 改 变 成 一 种 更 
为 通用 的 消息 传递 模式 。 进 程 在 PF_ROUTE 域 中 创建 一 个 原始 插口 (raw socket)， 就 能 够 向 内 
核发 送 选 路 消息 ， 以 及 从 内 核 接收 选 路 消息 (如 重 定向 或 来 自 于 内 核 的 其 他 的 异步 通知 )。 

”图 18-9 给 出 了 12 种 不 同类 型 的 选 路 消息 。 消 息 类 型 位 于 rt_msghar 结 构 ( 图 19-16) 中 的 
rtm_type 字 段 。 进 程 只 能 发 送 其 中 的 5 种 消息 ( 写 和 到 选 路 插口 中 )， 但 可 以 接收 全 部 的 12 种 消息 。 

我 们 将 在 第 19 章 给 出 这 些 选 路 消息 的 详细 讨论 。 


RTM, ADD 添加 路 由 















rt- | rt-meghár | 

























































RTM CHANGE 改变 网 关 、 度 量 或 标志 rt-msghdr 
RTM  DELADDR 从 接口 中 删除 地 址 ifa-msghdr 
RTM DELETE 删除 路 由 rt-msghdr 
RTM, GET 报告 度 匡 及 其 他 路 由 信息 rt-msghdr 
RTM IFINFO 接口 打开 或 关闭 等 rt-msghdr 
RTM, LOCK 锁定 指明 的 度量 rt-msghdr 
RTM, LOSING 内 核 怀 疑 某 路 由 无 效 rt-msghdr 
RTM_MISS 查找 这 个 地 址 失败 rt-msghdr 
RTM, NEWADDR 接口 中 添加 了 地 址 ifa-msghdr 
RTM, REDIRECT 内 核 得 知 要 使 用 不 同 的 路 由 rt-msghdr 








请 求 将 旦 的 地 址 解析 成 链 路 层 地 址 


RTM, RESOLVE rt-msghdr 


图 18-9 通过 选 路 插口 交换 的 消息 类 型 


18.4 代码 介绍 


路 由 选择 中 使 用 的 各 种 结构 和 函数 是 通过 五 个 C 文 件 和 三 个 头 文件 来 定义 的 。 图 18-10 列 
出 了 这 些 文件 。 
通常 ， 前 级 rn_ 表 示 radix 结 点 函数 ， 这 些 函 数 可 以 对 Patricia 树 进行 查找 和 操作 ， 前 
缀 raw_ 表 示 路 由 控制 块 函数 ，rout._、rt_ 和 rt 这 三 个 前 级 表示 常用 的 选 路 函数 。 
尽管 有 的 文件 和 函数 以 raw 为 前 缓 ， 但 在 所 有 的 选 路 章节 中 我 们 仍 使 用 木 语 选 路 
”控制 块 (routing control block) 而 不 是 原始 控制 块 。 这 是 为 了 防止 与 第 32 章 中 讨论 的 原 
始 I 控 制 块 及 其 函数 相 混 消 。 有 虽然 原始 控制 块 及 相关 函数 不 仅仅 用 于 Net3 中 的 选 路 
桔 口 (使 用 这 些 结 枸 和 函数 的 原始 OSI 协议 之 一 )， 但 是 本 书 中 我 们 只 用 做 PE_ROUTE 
域 中 的 选 路 插口 。 
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net/radix.h 





net/raw,cb.h 选 路 控制 块 定义 
net/route.h 选 路 结构 
net/radix.c radix% j (Patricia) (A $k 
net/raw_cb.c 选 路 控制 块 函数 
net/raw usrreq.c 选 路 控制 块 函数 
net/route.c 选 路 函数 
net/rtsock.c 选 路 插口 函数 
图 18-10 本 章 中 讨论 的 文件 
A DRE OUI arp,gated,route, = ` T 


[| 

1 routed, fj rwhod 程序 1 

| Socket(PF ROUTE, SOCK RAW, protocol) 3 
k 



















i 
c 
E 
a 
E 

给 定 TCP 连 接 H HITCP/IPB iX 

上 相继 重 传 中 调用 以 查找 到 

的 第 四 个 目的 地 的 路 由 
E 


图 18-11 各 选 路 函数 之 间 的 关系 
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图 18-11 给 出 了 一 些 基本 的 选 路 函数 ， 并 表示 了 它们 之 间 的 相互 关系 。 其 中 带 阴影 的 椭圆 
是 在 本 章 和 下 面 两 章 中 要 涉及 的 内 容 。 在 图 中 ， 我 们 还 给 出 了 每 种 类 型 的 选 路 消息 ( 共 12 种 ) 的 
产生 之 处 。 

rtalloc 函 数 是 由 Internet 协 议 调用 的 ， 用 于 查找 到 达 指 定 目 的 地 的 路 由 。 在 
ip rtaddr, ip forward, ip outputíllip. setmoptionsiEK3S rb d C.H Er 
rtalloc， 在 后 面 介 绍 的 in_pcbconnect 和 tcp_mss 国 数 中 也 将 会 遇 到 它 。 

图 18-11 还 给 出 了 在 选 路 域 中 创建 播 口 的 五 个 典型 程序 : 

。arp 处 理 ARP 高 速 缓存 ， 该 ARP 高 速 缓存 被 存储 在 NeV3 的 IP 路 由 表 中 ( 见 第 21 章 ); 

。gated 和 routed 是 选 路 守护 进程 ， 它 们 与 其 他 路 由 器 进行 通信 。 当 选 路 环境 发 生变 化 

时 ( 指 路 由 器 及 链 路 断 开 或 连通 )， 对 内 核 的 路 由 表 进 行 操作 ; 

。route 通 常 是 由 启动 脚本 或 系统 管理 员 执行 的 一 个 程序 ， 用 于 添加 或 删除 路 由 ; 

。rwhod 在 启动 时 会 调用 一 个 选 路 sysct1l 来 测定 连接 的 接口 。 

当然 ， 任 何 进程 (具有 超级 用 户 的 权限 ) 都 能 打开 一 个 选 路 播 口 向 选 路 子 系统 发 送 或 从 中 接 
收 消息 ; 在 图 18-11 中 ， 我 们 只 给 出 了 一 些 常用 的 系统 程序 。 


18.4.1 全 局 变量 


图 18-12 列 出 了 在 三 个 有 关 路 由 选择 的 章节 中 介绍 的 全 局 变量 。 

























路 由 表 表 头 指针 的 数组 
指向 掩 码 表 表 头 的 指针 
可 用 radix_mask 结 构 的 链表 表 头 
以 字 节 为 单位 的 路 由 表 键 值 的 最 大 长 度 
长 为 nax_keylen、 值 为 全 零 比特 的 数组 
长 为 max._keylen、 值 为 全 1 比特 的 数组 
长 为 nax_keylen、 掩 码 过 的 查找 键 数组 


路 由 选择 统计 (图 18-13) 

未 释放 的 非 表 中 路 由 的 数目 

选 路 控制 块 双向 链表 表 头 

选 路 插口 接收 缓冲 区 的 默认 大 小 ，8192 字 节 
选 路 插口 发 送 缓冲 区 的 默认 大 小 ，8192 字 节 
选 路 插口 监听 器 的 数目 ， 每 个 协议 的 数目 及 总 的 数目 
保存 选 路 消息 中 目的 地 址 的 临时 变量 

保存 选 路 消息 中 源 地 址 的 临时 变量 

保存 选 路 消息 中 协议 的 临时 变量 


图 18-12 在 三 个 有 关 选 路 的 章节 中 介绍 的 全 局 变量 


rt_tables struct radix node head *[] 
mask rnhead struct radix node head * 


rn mkfreelist | struct radix mask * 








max keylen 


rn, zeros 





rn, ones 


maskedKey 









rtstat struct rtstat 


rttrash 









int 






rawcb struct rawcb 






raw recvspace | u, long 





raw sendspace | u long 










struct route cb 








route cb 


route dst struct sockaddr 






route src struct sockaddr 





route proto struct sockproto 





18.4.2 统计 量 


图 18-13 列 举 了 一 些 路 由 选择 统计 量 ， 它 们 是 在 全 局 结构 rtstat 中 维护 的 。 

在 代码 的 处 理 中 ， 我 们 可 以 发 现 计数 器 是 怎样 增加 的 。 这 些 计 数 器 在 SNMP 中 并 未 使 用 。 

图 18-14 给 出 了 netstat -rs 命令 输出 的 一 些 统计 数据 的 样 例 ， 该 命令 用 于 显示 
rtstat 结 构 。 
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rts, badredirect 无 效 重 定向 调用 的 数目 
rts, dynamic 由 重 定 向 创建 的 路 由 数目 


rts_newgateway 由 重 定向 修改 的 路 由 数目 
rts, unreach 查找 失败 的 次 数 
rts wildcard 由 通配符 匹配 的 查找 次 数 ( 从 未 使 用 ) 


图 18-13 在 rtstat 结 构 中 维护 的 路 由 选择 统计 数据 





1029 bad routing redirects rts. badredirect 
0 dynamically created routes rts, dynamic 
0 new gateways due to redirects rts, newgateway 
0 destinations found unreachable rts, unreach 
0 uses of a wildcard route rts-wildcard 


图 18-14 路 由 选择 统计 数据 样 例 





18.4.8 SNMP EE 


图 18-15 给 出 了 名 为 jpRouteTable 的 IP 路 由 表 以 及 相应 的 内 核 变 量 。 


IP 路 由 表 ，index = <ipRouteDest> 


ipRouteDest rt key IP 昌 的 地 址 。 值 为 0.0.0.0 时 ， 代 表 默 认 路 由 

ipRouteIfIndex rt ifp, if index 接口 号 : ifindex 

ipRouteMetricl 基本 的 路 由 度量 。 其 含义 取决 于 选 路 协议 的 值 (ipRoute- 
Proto)。 值 为 -1， 表 示 没 有 使 用 

ipRouteMetric2 可 选 的 路 由 度量 

ipRouteMetric3 可 选 的 路 由 度量 

ipRouteMetric4 可 选 的 路 由 度量 

ipRouteNextHop | rt gateway TF—BEPS d 25 BUIPRE BE 

ipRouteType (EX) 路 由 类 型 : 1= 其 他 ，2= 无 效 路 由 ，3= 直 接 的 ，4= 间 接 
的 

ipRouteProto (LIE X) 路 由 协议 : 1= 其 他 ，4=ICMP 重 定向 ，8=RIP, 13=0SPF, 
14- BGP% 

ipRouteAge (未 实现 ) 从 路 由 最 后 一 次 被 修改 或 被 确定 为 正确 时 起 的 秒 数 

ipRouteMask rt mask 在 和 ipRouteDest 比 较 前 ， 与 目的 主机 由 地 址 进行 逻 
辑 与 运算 的 掩 码 

ipRouteMetric5 可 选 的 路 由 度量 

ipRouteInfo 本 选 路 协议 特定 的 MIB 定 义 的 引用 





图 18-15 IP 路 由 表 : ipRouteTable 


如 果 在 rt_flags 中 将 标志 RTF_GATEWAY 置 位 ， 则 该 路 由 就 是 远程 的 ， ipRouteType 
等 于 4; 否则 该 路 由 就 是 直达 的 ，ipRouteType 值 为 3。 对 于 ipRouteProto， 如 果 将 标志 
RTF_DYNAMIC 或 RTF_MODIFIED 置 位 ， 则 该 路 由 就 是 由 ICMP 来 创建 或 修改 的 ， 值 为 4， 否 则 
为 其 他 情况 ， 其 值 为 1!。 最 后 ， 如 果 rt_mask 指 针 为 空 ， 则 返回 的 掩 码 就 是 全 1( 即 主机 路 由 )。 
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18.5 Radix 结 点 数据 结构 


在 图 18-8 中 可 以 发 现 每 一 个 路 由 表 的 表 头 都 是 一 个 radix_node_head 结 构 ， 而 选 路 树 中 所 
有 的 结 点 (包括 内 部 结 点 和 叶子 ) 都 是 radix_node 结 构 。radix_node_head 结 构 如 图 18-16 所 示 。 


- radix.h 

91 struct radix node, head ( 

92 struct radix node *rnh treetop; 

93 int rnh addrsize; /* (not currently used) */ 

94 int rnh pktsize; /* (not currently used) */ 

95 struct radix node *(*rnh, addaddr) /* add based on sockaddr */ 

96 (void *v, void *mask, 

97 struct radix node,head * head, struct radix node nodes[]); 

98 struct radix node *(*rnh, addpkt) /* add based on packet hdr */ 

99 (void *v, void *mask, 

100 struct radix node head * head, struct radix node nodes[]); 
101 struct radix node *(*rnh deladdr) /* remove based on sockaddr */ 

102 (void *v, void *mask, struct radix node,.head * head); 

103 struct radix node *(*rnh delpkt) /* remove based on packet hdr */ 
104 (void *v, void *mask, struct radix node, head * head); 
105 struct radix node *(*rnh, matchaddr) /* locate based on sockaddr */ 
106 (void *v, struct radix node head * head); 

107 struct radix node *(*rnh,matchpkt)  /* locate based on packet hår */ 
108 (void *v, struct radix node head * head); 
109 int (*rnh walktree) /* traverse tree */ 
110 (struct radix node head * head, int (*f) (), void *w); 
111 struct radix node rnh nodes[3]; /* top and end nodes */ 
n»o radix.h 





图 18-16 radix node head£ÁA44: 每 棵 选 路 树 的 顶点 
92 rnh_treetop 指 向 路 由 树 顶端 的 radix_node 结 构 。 可 以 看 到 radix_ node_head 结 
构 的 最 后 一 项 分 配 了 三 个 radix_node 结 构 ， 其 中 中 间 的 那个 被 初始 化 成 树 的 顶点 (图 18-8)。 
93-94 rnh_addrsize 和 rnh_pktsize 目 前 未 被 使 用 。 
rnh_adqdrsize 是 为 了 能 够 方便 地 将 路 由 表 代 码 导 入 到 系统 中 去 ， 因 为 系统 的 
插口 地 址 结构 中 没有 标识 其 长 度 的 字 节 。rnh_pktsize 是 为 了 能 够 利用 radix 结 点 
机 制 直 接 检查 分 组 头 结 构 中 的 地 址 ， 而 无 需 把 该 地 址 描 贝 到 某 个 插口 地 址 结构 中 去 。 


95-110 从 rnh_addaddr 到 rnh_walktree 是 七 个 函数 指针 ， 它 们 所 指向 的 函数 将 被 调用 
以 完成 对 树 的 操作 。 如 图 18-17 所 示 ，rn_inithead 仅 初始 化 了 其 中 的 四 个 指针 ， 剩 下 的 三 


个 指针 在 NeV3 中 未 被 使 用 。 被 rn_inithead 初 始 化 为 


111-112 图 18-18 给 出 了 组 成 树 中 结 点 的 rnh, addaddr rn addroute 
radix_node 结 构 。 在 图 18-8 中 ， 我 们 可 以 发 rnh. addpkt NULL 

现 ， 在 radix_node_head 中 分 配 了 三 个 这 样 e e del ete 
的 radix-node 结 构 ， 而 在 每 一 个 rtentry haar rn_match 
结构 中 分 配 了 两 个 radix_node 结 构 。 rnh, matchpkt NULL 

41-45 前 五 个 成 员 是 内 部 结 点 和 叶子 都 有 rnh, walktree rn walktree 





的 成 员 。 后 面 是 一 个 union: 如 果 结 点 是 叶 图 18-17 在 radix_node_head 结 构 中 的 
子 ， 那 么 它 定义 了 三 个 成 员 ; 如 果 是 内 部 结 七 个 函数 指针 
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点 ， 那 么 它 定 义 了 另外 不 同 的 三 个 成 员 。 由 于 在 NeV3 代 码 中 经 常 使 用 union 中 的 这 些 成 员 ， 
因此 ， 用 一 组 #daefine 语 句 定义 它们 的 简写 形式 。 

41-42 rn_mklist 是 该 结 点 掩 码 链表 的 表 头 。 我 们 将 在 18.9 节 中 描述 该 字段 。zrn_P 指 向 该 
结 点 的 父 结 点 。 

43 ”如 果 rn_b 值 大 于 或 者 等 于 零 ， 那 么 该 结 点 为 内 部 结 点 ; 否则 就 是 叶子 。 对 于 内 部 结 点 来 
说 ，rn_pb 就 是 要 测试 的 比特 位 置 例如 ， 在 图 18-4 中 ， 树 的 顶 结 点 的 rn_b 值 为 32。 对 于 叶 
子 来 说 ，rn_b 是 负 的 ， 它 的 值 等 于 -1 减 去 网 络 掩 码 索 引 (index of the network mask)。 该 索引 


是 指 掩 码 中 出 现 的 第 一 个 零 的 比特 位 置 。 图 18-19 给 出 了 图 18-4 中 掩 码 的 索引 。 





- radix.h 
40 struct radix node { 
41 struct radix mask *rn mklist; /* list of masks contained in subtree */ 
42 struct radix node *rn p; /* parent pointer */ 
43 short rn b; /* bit offset; -l-index(netmask) */ 
44 char rn, bmask; /* node: mask for bit test */ 
45 u_char rn flags; /* Figure 18.20 */ 
46 union ( 
47 struct ( /* leaf only data: rn b < 0 */ 
48 caddr t rn Key; /* object of search */ 
49 caddr t rn Mask; /* netmask, if present */ 
50 struct radix node *rn, Dupedkey; 
51 ) rn leaf; 
52 struct { /* node only data: rn b »- 0 */ 
53 int rn Off; /* where to start compare */ 
54 struct radix node *rn L; /* left pointer */ 
55 struct radix node *rn R; /* right pointer */ 
56 ) rn. node; 
57 ) rn u; 
58 ); 
59 &define rn, dupedkey rn u.rn leaf.rn Dupedkey 
60 #define rn key rn u.rn leaf.rn,Key 
61 Xdefine rn, mask rn u.rn, leaf.rn, Mask 
62 $define rn off rn u.rn node.rn Off 
63 #define rn 1 rn u.rn node.rn L 
64 tdefine rn r rn u.rn node.rn R 

radix.h 


图 18-18 radix node£&f4: 路 由 树 的 结 点 


D E | 
3333 3333 4444 4444 4455 5555 5555 6666 
2345 6789 0123 4567 8901 2345 6789 0123 
0000 0000 0000 0000 0000 0000 0000 0000 
1111 1111 0000 0000 0000 0000 0000 0000 
1111 1111 1111 1111 31111 1111 1110 0000 
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ffffffe0: 












图 18-19 掩 码 索 引 的 例子 


我 们 可 以 发 现 ， 其 中 的 全 0 掩 码 的 索引 是 特殊 处 理 的 : 它 的 索引 是 0， 而 不 是 32。 
44 ”内 部 结 点 的 rn_bmask 是 个 单字 节 的 掩 码 ， 用 于 检测 相应 的 比特 位 是 0 还 是 1。 在 叶子 中 


它 的 值 为 0。 很 快 我 们 将 会 看 到 如 何 运用 成 员 rn_bmask 和 成 员 rn_off。 
45 图 18-20 给 出 了 成 员 rn_flags 的 三 个 值 。 
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RNF NORMAL | 该 叶子 含有 正常 路 由 (目前 未 被 使 用 ) 
RNF ROOT 该 叶子 是 树 的 根 叶 子 





图 18-20 rn_flags 的 值 
RNF_ROOT 标 志 只 有 在 radix_node_head 结 构 中 的 三 个 radix 结 点 ( 树 的 顶 结 点 、 左 端 结 点 和 
右 端 结 点 ) 中 才能 设置 。 这 三 个 结 点 不 能 从 路 由 树 中 删除 。 
48-49 对 于 叶子 而 言 ，rn_key 指 向 播 口 地址 结构 ，rn_mask 指 向 保存 捧 码 的 揪 口 地 址 结 


” 构 。 如 果 zrn_mask 为 空 ， 则 其 掩 码 为 隐 含 的 全 1 值 ( 即 ， 该 路 由 指向 某 个 主机 而 不 是 某 个 网 
络 )。 


图 18-21 例 举 了 一 个 与 图 18-4 中 的 叶子 140.252.13.32 相 对 应 的 radix_node 结 构 的 例子 。 


指向 比特 63 对 应 的 radix_node{} 













radix node() 


Sockaddr in() 


0 
RNF. ACTIVE 140.252. 13. 32 


(6 [2]| 0 jee[ee[oa|o] — 0 | 


255.255.255.224 


[sto] relrtletleo| 0 


图 18-21 与 图 18-4 中 的 叶子 140.252.13.32 相 对 应 的 radix_node 结 构 


该 例子 中 还 给 出 了 图 18-22 中 描述 的 radix_mask 结 构 。 我 们 把 它 的 宽度 略微 缩小 了 一 些 ， 
以 区 分 于 radix_node 结 构 ; 这 两 种 结构 在 后 面 的 很 多 图 例 中 都 会 遇 到 。 有 关 radix_mask 
结构 的 作用 将 在 18.9 节 中 阐述 。 

值 为 -60 的 xn_b 相 对 应 的 索引 为 39。rn_key 指 向 一 个 sockaddr_in 结 构 ， 它 的 长 度 值 
为 6， 地 址 族 值 为 2CAF_INET)。 由 rn_mask 和 rm_mask 指 向 的 掩 码 结构 所 含 的 长 度 值 为 8， 
地 址 族 值 为 0( 该 族 为 AF_UNSPEC， 但 我 们 从 未 使 用 它 )。 

50-51 当 有 多 个 叶子 的 键 值 相 同时 ， 使 用 rn_dupedkey 指 针 。 有 具体 内 容 将 在 18.9 节 中 盖 述 。 
52-58 有 关 rn_off 的 内 容 将 在 18.8 节 中 曾 述 。rn_1 和 rn_r 是 该 内 部 结 点 的 左 、 右 指针 。 

图 18-22 给 出 了 radix_mask 结 构 的 定义 。 

76-83 该 结 构 中 包含 了 一 个 指向 其 掩 码 的 指针 : rm_mask， 实 际 上 是 一 个 保存 掩 码 的 插口 
地 址 结构 的 指针 。 每 一 个 radix_node 结 构 对 应 一 个 radix_mask 结 构 的 链表 ， 这 就 允许 每 
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个 结 点 包含 多 个 掩 码 : 成 员 rn_mk1ist 指 向 链表 的 第 一 个 结 点 ， 然 后 每 个 结构 的 成 员 
rm_mk1list 指 向 链表 的 下 一 个 结 点 。 该 结构 的 定义 同时 声名 了 全 局 变量 rn_mkfreelist， 
它 是 可 用 的 radix_mask 结 构 链表 的 表 头 。 


- radix.h 
76 extern struct radix mask ( 
77 short rm_b; /* bit offset; -1-index(netmask) */ 
78 char rm unused; /* cf. rn bmask */ 
79 u char rm flags; /* cf. rn flags */ 
80 struct radix mask *rm mklist; /* more masks to try */ 
81 caddr t rm mask; /* the mask */ 
82 int rm refs; /* # of references to this struct */ 
83 } *rn mkfreelist; 

radix.h 


图 18-22 radix_mask 结 构 


18.6 选 路 结构 


访问 内 核 路 由 信息 的 关键 之 处 是 : 

1) rtalloc 函 数 ， 用 于 查找 通 往 目的 地 的 路 由 ; 

2) route 结 构 ， 它 的 值 由 rtalloc 国 数 填写 ; 

3) route 结 构 所 指向 的 rtentry 结 构 。 

图 18-8 给 出 了 UDP 和 TCP( 参 见 第 22 章 ) 中 使 用 的 协议 控制 块 (PCB)， 其 中 包含 一 个 route 
结构 ， 见 图 18-23。 


route.h 
46 struct route { 
47 struct rtentry *ro rt; /* pointer to struct with information */ 
48 struct sockaddr ro dst; /* destination of this route */ 
49 ); 
route.h 


图 18-23 route 结 构 


ro_dst 被 定义 成 一 个 一 般 的 播 口 地 址 结构 ， 但 对 于 Internet 协 议 而 言 ， 它 就 是 一 个 
sockaddr_in 结 构 。 注 意 ， 对 这 种 结构 类 型 的 绝 大 多 数 引 用 都 是 一 个 指针 ， 而 ro_dst 是 该 
结构 的 一 个 实例 而 非 指 针 。 

这 里 ， 我 们 有 必要 回顾 一 下 图 8-24。 从 该 图 可 以 得 知 ， 每 次 发 送 IP 数 据 报 时 ， 这 些 路 由 是 
如 何 使 用 的 。 

。 如 果 调 用 者 传递 了 一 个 route 结 构 的 指针 ， 那 么 就 使 用 该 结构 。 否 则 ， 就 要 用 一 个 局 部 
route 结 构 ， 其 值 设置 为 0( 设 置 ro_rt 为 空 指 针 )。UDP 和 TCP 把 指向 它们 的 PCB 中 
route 结 构 的 指针 传递 给 ip_output。 

。 如 果 route 结 构 指 向 一 个 rtentry 结 构 (ro_rt 指 针 为 非 空 )， 同 时 所 引用 的 接口 仍然 有 
效 ; 而 且 如 果 route 结 构 中 的 目的 地 址 与 IP 数 据 报 中 的 目的 地 址 相等 ， 那 么 该 路 由 就 被 
使 用 。 否 则 ， 目 的 主机 的 IP 地 址 将 会 设置 在 播 口 地 址 结构 so_ast 中 ， 并 且 调 用 
rtalloc 来 查找 一 条 通 向 该 目的 主机 的 路 由 。 在 TCP 链 接 中 ， 数 据 报 的 目的 地 址 始终 是 
路 由 的 目的 地 址 ， 不 会 发 生变 化 ， 但 是 UDP 应 用 可 以 通过 sendto 每 次 都 把 数据 报 发 送 
到 不 同 的 目的 地 。 

。 如 果 ztalloc 返 回 的 ro_rt 是 个 空 指针 ， 则 表明 找 不 到 路 由 ， 并 且 ip_outpPut 返 回 一 
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个 差错 。 

。 如 果 在 rtentry 结 构 中 设 有 RTF_GATEWAY 标 志 ， 那 么 该 路 由 为 非 直 接 路 由 (参见 图 18- 
2 中 的 G 标 志 )。 接 口 输出 函数 的 目的 地 址 (dst) 就 变 成 网 关 的 IP 地 址 ， 即 rt_gateway 成 
员 ， 而 不 是 IP 数 据 报 的 目的 地 地 址 。 

图 18-24 给 出 了 rtentry 结 构 的 定义 。 

youteh 


83 struct rtentry { 


84 Struct radix node rt nodes[2]; /* a leaf and an internal node */ 

85 Struct sockaddr *rt gateway; /* value associated with rn key */ 

86 short rt flags; /* Figure 18.25 */ 

87 short rt refcnt; /* #held references */ 

88 u long rt, use; /* raw #packets sent */ 

89 Struct ifnet *rt ifp; /* interface to use */ 

90 Struct ifaddr *rt ifa; /* interface address to use */ 

91 Struct sockaddr *rt, genmask; /* for generation of cloned routes */ 

92 caddr t rt llinfo; /* pointer to link level info cache */ 

93 Struct rt, metrics rt rmx; /* metrics: Figure 18.26 */ 

94 Struct rtentry *rt gwroute; /* implied entry for gatewayed routes */ 

95 ) 

96 #define rt key(r) ((struct sockaddr *)((r)-»rt nodes-»rn key)) 

97 #define rt mask(r) ((struct sockaddr *)((r)-»rt nodes-»rn, mask)) route h 
e. 


图 18-24 rtentry 结 构 


83-84 在 该 结构 中 包含 有 两 个 radix_node 结 构 。 正 如 我 们 在 图 18-7 的 例子 中 所 提 到 的 ， 
每 次 向 路 由 树 添 加 一 个 新 叶子 的 同时 也 要 添加 一 个 新 的 内 部 结 点 。rt_nodes[0] 为 叶子 ， 
rt_nodes[1] 为 内 部 结 点 。 在 图 18-24 最 后 的 两 个 #define 语 句 提 供 了 访问 该 叶 结 点 的 键 和 


掩 码 的 简写 形式 。 
86 图 18-25 给 出 了 储存 在 rt_flags 中 的 各 种 常量 以 及 在 图 18-2 的 “Flags” 列 中 由 


netstat 输 出 的 相应 字符 。 


RTF BLACKHOLE 无 差错 的 丢弃 分 组 ( 环 同 驱动 器 :图 5-27) 
RTF. CLONING 使 用 中 产生 新 的 路 由 (由 ARP 使 用 ) 
RTF DONE 内 核 的 证 实 ， 表 示 消 息 处 理 完毕 
RTF_DYNAMIC (由 重 定向 ) 动 态 创建 

RTF_GATEWAY 日 的 主机 是 一 个 网 关 ( 非 直接 路 由 ) 
RTF_HOST 主机 路 由 (否则 ， 为 网 络 路 由 ) 

RTF LLINFO 当 rt_1l1info 指 针 无 效 时 ， 由 ARP 设 置 
RTF MASK 子 网 掩 码 存在 (未 使 用 ) 

RTF MODIFIED (由 重 定向 ) 动 态 修改 

RTF PROTOl 协议 专用 的 路 由 标志 

RTF PROTO2 协议 专用 的 路 由 标志 (ARP 使 用 ) 

RTF REJECT 有 差错 的 丢弃 分 组 ( 环 同 驱动 器 :图 3-27) 
RTF STATIC 人 工 添加 的 路 由 (route 程序 ) 

RTF UP 可 用 路 由 

RTF XRESOLVE 由 外 部 守护 进程 解析 名 字 ( 用 十 X.25) 


C 
Q 
D 
G 
" 
L 
m 
M 
1 
2 
R 
S 
U 
X 





图 18-25 rt flagsHJfü 
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netstat 不 输出 RTF_BLACKHOLE 标 志 。 两 个 标志 为 小 写字 符 的 常量 ，RTF_DONE 和 
RTF_MASK， 在 路 由 消息 中 使 用 ， 但 通常 并 不 储存 在 路 由 表 项 中 。 
85 ”如 果 设 置 了 RTF_GATEWAY 标 志 ， 那 么 rt_gateway 所 含 的 插口 地 址 结构 的 指针 就 指向 
网 美的 地 址 ( 即 网 关 的 IP 地 址 )。 同 样 ，rt_gwroute 就 指向 该 网 关 的 rtentry。 后 一 个 指针 
在 ether_output( 图 4-15) 中 用 到 。 
87 rt_refcnt 是 一 个 计数 器 ， 保 存 正在 使 用 该 结构 的 引用 数目 。 在 19.3 节 的 最 后 部 分 将 具 
体 描述 该 计数 器 。 在 图 18-2 中 ， 该 计数 器 在 “Refs” 列 输出 。 
88  ” 当 分 配 该 结构 存储 空间 时 ，rt_use 被 初始 化 为 0。 在 图 8-24 中 ， 可 发 现 每 次 利用 该 路 由 
输出 一 份 正 数据 报时 ， 其 值 会 随 之 递增 。 该 计数 器 的 值 在 图 18-2 的 “Use” 栏 中 输出 。 
89-90 rt_ifp 和 rt_ifa 分 别 指 接口 结构 和 接口 地 址 结构 。 在 图 6-5 中 曾 指出 一 个 给 定 的 接 
口 可 以 有 多 个 地 址 ， 因 此 ，rt_ifa 是 必需 的 。 
92 rt_llinfo 指 针 人 允许 链 路 层 协 议 在 路 由 表 项 中 储存 该 协议 专用 的 结构 指针 。 该 指针 通常 
与 RTF_LLINFO 标 志 一 起 使 用 。 图 21-1 描 述 了 ARP 如 何 使 用 该 指针 。 


- route.h 
54 struct rt metrics { 
55 u long rmx locks; /* bitmask for values kernel leaves alone */ 
56 u long rmx mtu; /* MTU for this path */ 
57 u long rmx hopcount; /* max hops expected */ 
58 u long rmx expire; /* lifetime for route, e.g. redirect */ 
59 u long rmx recvpipe; /* inbound delay-bandwith product */ 
60 u long rmx sendpipe; /* outbound delay-bandwith product */ 
61 u long rmx. ssthresh; /* outbound gateway buffer limit */ 
62 u long rmx rtt; /* estimated round trip time */ 
63 u long rmx rttvar; /* estimated RTT variance */ 
64 u long rmx pksent; /* épackets sent using this route */ 
$5) route.h 


图 18-26 rt_metrics 结 构 


93 图 18-26 给 出 了 rt_metrics 结 构 ，rtentry 结 构 含 有 该 结构 。 图 27-3 显 示 了 TCP 使 用 了 
该 结构 的 六 个 成 员 。 
54-65 rmx_locks 是 一 个 比特 掩 码 ， 由 它 告 诉 内 核 后 面 的 八 个 度量 中 的 哪些 禁止 修改 。 该 
比特 掩 码 的 值 在 图 20-13 中 给 出 。 

ARP( 参 见 第 21 章 ) 把 rmx_expire 用 作 每 一 个 ARP 路 由 项 的 定时 器 。 与 fmx_expire 的 
注释 不 同 的 是 ，rm_expire 不 是 用 作 重 定向 的 。 

图 18-28 概 括 了 我 们 上 面 所 阐述 的 各 种 结构 和 这 些 结构 之 间 的 关系 ， 以 及 所 引用 的 各 种 播 
口 地 址 结构 。 图 中 给 出 的 rtentry 是 图 18-2 中 到 128.32.33.5 的 路 由 。 包 含 在 rtentry 中 的 另 
一 个 radix_node 对 应 于 图 18-4 中 位 于 该 结 点 正 上 方 的 测试 比特 36 的 内 部 结 点 。 第 一 个 
ifadqdr 所 指 的 两 个 sockaddr_d1l 结 构 如 图 3-38 所 示 。 另 外 ， 从 图 6-5 中 也 可 注意 到 ifnet 
结构 包含 在 le_softc 结 构 中 ， 第 二 个 i1faddr 结 构 包 含 在 in_ifaddr 结 构 中 。 


18.7 初始 化 route initífürtable init 函 数 


路 由 表 的 初始 化 过 程 并 非 是 一 目 了 然 的 ， 我 们 需要 回顾 一 下 第 7 章 中 的 domain 结 构 。 在 描 
述 这 些 函 数 调用 之 前 ， 图 18-27 给 出 了 各 协议 族 中 与 Qomain 结 构 相 关 的 字段 。 
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dom family 


dom, init 

dom rtattach 
dom rtoffset 
dom, maxrtkey 





AF. ISO 

0 

rn inithead rn inithead 
48 32 16 

32 16 16 





图 18-27 domain 结 构 中 与 路 由 选择 有 关 的 成 员 


PF_route 域 是 唯一 具有 初始 化 函数 的 域 。 同 样 ， 只 有 那些 需要 路 由 表 的 域 才 有 
dom_rtattach 函 数 ， 并 且 该 函数 总 是 rn_inithead。 选 路 域 和 Unix 域 并 不 需要 路 由 表 。 


sockaddr in{} 
route() 


rtentry() inpcbt() 

~ 128.32.33. 5 
$ [mb  ] mej 9 opo — 9 —— ] 
15 m — 10 TIU) 
" aep2[ 9 Jacleclodi 0 — ] ore 
$ mea 9 | 
" 都 是 sockadar inf os [20] 

[ rn dupedkey | 

[nakiist 

[zs | 








rn mklist ifnet() 
mcs leo 
3 36 if next to SLIP 4fnet() 
$i errs onto 
1| -————1 [ ifindek |: 
= ni — |o 
rt flags UGHS ] : 
以 太 网 地 址 
tfaaart) 一 一 一 一 
rt genmask mps 1 Tw [3[eTo[1[eTo]osjoo[2o]os|te|a2] o 
a[o[ € Te[e[e [s esee v9 [9 [e]o] 5 
` 都 是 sockaadr_aat 
x ifa rtrequest 
3 
h 
1025.13.38 
ifa. adr me o ede — 9 —— 
rmx.pksent ifa, brdaddr 140.252. 13. 63 
ifa netmask [aT o Teco 0 | 
ifa ifp 255.255.255.224 


radix node(). 


for 140.252.13.33 


ifa next 

ifa rtrequest 
ifa flags 

ifa refcnt 


~ 
: 
^ 
- 


ifa metric 


三 个 都 是 sockaddr in() 


图 18-28 选 路 结构 小 结 
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dom_rtoffset 成 员 是 以 比特 为 单位 的 选 路 过 程 中 被 检测 的 第 一 个 比特 的 偏 移 量 (从 域 的 
揪 口 地 址 结构 的 起 始 处 开始 计算 )。dom_maxrtkey 给 出 了 该 结构 的 字 节 长 度 。 在 本 章 的 前 一 
部 分 的 内 容 中 ， 我 们 已 经 知道 ，sockaddr_in 结 构 中 的 IP 地 址 是 从 比特 32 开 始 的 。 
dom_maxrtkey 成 员 是 协议 的 插口 地 址 结构 的 字 节 长 度 : sockaddr_in 的 字 节 长 度 为 16。 
图 18-29 列 出 了 路 由 表 初 始 化 过 程 所 包含 的 步骤 。 


main() /* kernel initialization */ 
( 
ifinit(); 
omaininit(); 
) 
omaininit () /* Figure 7.15 */ 


( 


ADDDOMAIN (unix); 
ADDDOMAIN (route); 
ADDDOMAIN(inet); 
ADDDOMAIN (osi); 


for ( dp - alldomains ) ( 

(*dp-»dom init) (0); 

for ( pr = all protocols for this domain ) 
(*pr-»pr init) (0; 






) 


faw init() /* pr init() function for SOCK RAW/PF. ROUTE protocol */ 
( . M 
初始 化 选 路 协议 控制 块 的 首部 


* route init() /* dom init() function for PF,ROUTE domain */ 
( 
rn init(); 
——rtable init(); 
) . 


rn init() 
( 
for ( dp = all domains ) 
if (dp-»dom maxrtkey > max keylen) 
max keylen = dp-»dom maxrtkey; 
分 配 并 初始 化 xn zeros, rn, ones, masked, key ; 
rn inithead(&mask rnhead); /* allocate and init tree for masks */ 





) 


rtable init() 
{ 
for ( dp = alldomains ) 


(*dp-»dom rtattach) (&rt, tables[dp-»dom family]); 
) Ar 


rn inithead() /* dom attach() function for all protocol families */ 
( 

分 配 并 初始 化 一 个 radix_node_head 结构 ; 
} 


图 18-29 初始 化 路 由 表 时 包含 的 步 又 
在 系统 初始 化 时 ， 内 核 的 main 函 数 将 调用 一 次 domaininit 函 数 。ADDDOMAIN 宏 用 于 
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创建 一 个 aomain 结 构 的 链表 ， 并 调用 每 个 域 的 dom_init 国 数 (如 果 定 义 了 该 函数 )。 正 如 图 
18-27 所 示 ，route_init 是 唯一 的 一 个 aom_intit 国 数 ， 其 代码 如 图 18-30 所 示 。 


49 void route.c 
50 route init() 
51 { . 
52 rn init(); /* initialize all zeros, all ones, mask table */ 
53 rtable init((void **) rt tables); 
54 ) 
route.c 


图 18-30 rout initi A 
在 图 18-32 中 的 图 数 rn_init 只 被 调用 一 次 。 
在 图 18-31 中 的 函数 rtable_init 也 只 被 调用 一 次 。 它 接着 调用 所 有 域 的 aom_ 
rtattach 国 数 ， 这 些 国 数 为 各 自 所 属 的 域 初始 化 一 张 路 由 表 。 


route.c 
39 void 
40 rtable_init (table) 
41 void **table; 
42 { 
43 struct domain *dom; 
44 for (dom - domains; dom; dom - dom-»dom next) 
45 if (dom-»dom rtattach) 
46 dom-»dom rtattach(&table[dom-»dom family], 
47 dom-»dom rtoffset); 
48 ] 
route.c 





图 18-31 rtable initi&Xk: 调用 每 一 个 域 的 aom_rtattach 图 数 


从 图 18-27 中 可 知 ，rn_inithead 是 唯一 的 一 个 aom_rtattach 国 数 ， 关 于 rn_ 
inithead 国 数 将 在 下 一 节 中 介绍 。 


18.8 初始 化 rn initífürn initheadPHi XE 


图 18-32 中 的 函数 rn_init 只 被 route_init 调 用 一 次 ， 用 于 初始 化 radix 函 数 使 用 的 一 
些 全 局 变量 。 

1. 确定 max_keylen 
750-761 检查 所 有 domain 结 构 ， 并 将 全 局 变量 max_keylen 设 置 为 最 大 的 
dom_maxrtkey 值 。 在 图 18-27 中 最 大 值 是 32( 对 应 于 AF_ISO)， 但 是 ， 在 一 个 常用 的 不 含 
OSI 和 XNS 协 议 的 系统 中 ，max_key 为 16， 即 sockaddqr_in 结 构 的 大 小 。 

2. 分 配 并 初始 化 rn_zeros、 rn_ones 和 maskedKey 
762-769 ” 先 分 配 了 一 个 大 小 为 max_keylen 的 三 倍 的 缓存 ， 并 在 全 局 变量 rn_zeros 中 储 
存 该 缓存 的 指针 。R_Malloc 是 一 个 调用 内 核 的 mal1loc 函 数 的 宏 ， 它 指定 了 M_RTABLE 和 和 
M_DONTWAIT 的 类 型 。 我 们 还 会 遇 到 Bcmp、Bcopy、Bzeroc 和 Free 这 些 宏 ， 它 们 对 参数 进 
行 适当 分 类 ， 并 调用 名 称 相 似 的 内 核 函 数 。 

该 缓存 被 分 解 成 三 个 部 分 ， 每 一 部 分 被 初始 化 成 如 图 18-33 所 示 。 

rn_zeros 是 一 个 全 0 比特 的 数组 ， rn_ones 是 一 个 全 1 比特 的 数组 ，maskedKey 数 组 用 
于 存放 被 掩 码 过 的 查找 键 的 临时 副本 。 
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radix.c 
750 void 
751 rn init() 
752 ( 
753 char *cp, *cplim; 
754 struct domain *dom; 
755 for (dom = domains; dom; dom = dom-»dom next) 
756 if (dom->dom maxrtkey > max keylen) 
757 max keylen = dom-»dom maxrtkey; 
758 if (max keylen -- 0) ( 
759 printf("rn init: radix functions require max keylen be setin"); 
760 return; 
761 ) 
762 R Mallocí(rn zeros, char *, 3 * max keylen); 
763 if (rn zeros == NULL) 
764 panic("rn, init"); 
765 Bzero(rn, zeros, 3 * max keylen); 
766 rn ones = cp = rn, zeros + max keylen; 
767 maskedKey = cplim = rn ones + max keylen; 
768 while (cp « cplim) 
769 *cpre = -1; 
770 if (rn inithead((void **) &mask rnhead, 0) -- 0) 
771 panic("rn init 2"); 
772 ) radix.c 


图 18-32 rn init 


max keylen Ei max keylen 个 字 节 max keylen 个 字 节 


000 e 000111 t 1 1 1j0 0 0 e 000 


rn, zeros rn ones maskedKey 


图 18-33 rn_zeros、rn_ones 和 maskedKey 数 组 


3. 初始 化 掩 码 树 
770-772 调用 rn_inithead， 初 始 化 地 址 掩 码 路 由 树 的 首部 ; 并 使 图 18-8 中 全 局 变量 
mask_rnhead 指 向 该 radix_node_head 结 构 。 

从 图 18-27 可 知 ， 对 于 所 有 需要 路 由 表 的 协议 ，rn_inithead 也 是 它们 的 dom_attach 
函数 。 图 18-34 给 出 的 不 是 该 函数 的 源 代码 ， 而 是 该 函数 为 Internet 协 议 创建 的 
radix_node_head 结 构 。 

这 三 个 radix_node 结 构 组 成 了 一 棵 树 : 中 间 的 那个 结构 是 树 的 顶点 (由 rnh_treetop 
指向 它 )， 第 一 个 结构 是 树 的 最 左边 的 叶子 ， 最 后 一 个 结构 是 树 的 最 右边 的 叶子 。 这 三 个 结 点 
的 父 指针 (rn_p) 都 指向 中 间 的 那个 结 点 。 

rnh_nodes[1].rmn_b 的 值 32 是 待 油 试 的 比特 位 置 。 它 来 自 于 Internet 的 domain 结 构 中 的 
aom_rtoffset 成 员 (图 18-27)。 它 的 字 节 偏 移 量 及 字 节 掩 码 被 预先 计算 出 来 ， 这 样 就 不 需要 
在 处 理 过 程 中 完成 移 位 和 掩 码 。 其 中 ， 字 节 偏 移 量 从 插口 地 址 结构 起 始 处 开始 计算 ， 它 被 存 
放 在 radix_node 结 构 的 rn_off 成 员 中 (在 这 个 例子 中 它 的 值 为 4); 字 节 掩 码 存放 在 
rn_bmask 成 员 中 (在 这 个 例子 中 为 0x80)。 无 论 何 时 往 树 中 添加 radix_node 结 构 ， 都 要 计 
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算 这 些 值 ， 以 便于 在 转发 过 程 中 加 快 比 较 的 速度 。 其 他 的 例子 有 : 在 图 18-4 中 检测 比特 33 的 
两 个 结 点 的 偏 移 量 和 字 节 掩 码 分 别 为 4 和 0x40; 检测 比特 63 的 两 个 结 点 的 偏 移 量 和 字 节 掩 码 分 
别 为 7 和 0x01。 . 

两 个 叶子 中 的 rn_b 成 员 的 值 -33 是 由 -1 减 去 该 叶子 的 索引 而 得 到 的 。 


rt, tables(í]: radix node head() 


rnh treetop 









rnh addrsize |0 
rnh pktsize 0 

rn addroute 
rnh, addpkt NULL 

rn. delroute 





rnh delpkt 










rnh matchpkt 



















rnh walktree |rn walktree 
rn mklist NULL /— 
rn-b -33 radix node() 
rn bmask 0 rnh nodes [0] 
ACTIVE|ROOT 最 左边 的 叶子 
rn zeros 
rn, mask NULL 
rn dupedkey NULL 
rn, mklist NULL | 
32 radix node() 
0x80 rnh nodes [1] 
ACTIVE|ROOT 内 部 结 点 
4 也 是 树 的 顶点 
rn mklist NULL 
-33 
rn, bmask 0 zaaix nodet 1 
ACTIVE|ROOT L. 
Lrniev —  |rn.ones RASDEONET 
NULL 
NULE 0. 





图 18-34 rn_inithead 为 Internet 协 议 创建 的 radix_node_head 结 构 


最 左边 结 点 的 键 是 全 0(rn_zeros)， 最 右边 结 点 的 键 是 全 1(rn_ones)。 
这 三 个 结 点 都 设置 了 RNF_ROOT 标 志 ( 我 们 省 上 咯 了 前 级 RNF_)。 这 说 明 它们 都 是 构成 树 的 
原始 结 点 之 一 。 它 们 也 是 唯一 具有 该 标志 的 结 点 。 

有 一 个 细节 我 们 没有 提 到 ， 就 是 网 络 文件 系统 (NFS) 也 使 用 路 由 表 函 数 。 对 于 本 
地 主机 的 每 一 个 装配 点 (mount poinD 都 分 配 一 个 radix_node_head 结 构 ， 并 且 具 
有 一 个 指向 这 些 结构 的 指针 数组 (利用 协议 族 检 索 )， 与 rt_tables 数 组 相似 。 每 次 
输出 装配 点 时 ， 针 对 该 装配 点 ， 把 能 装配 该 文件 系统 的 主机 的 协议 地 址 添加 到 适当 
的 树 中 去 。 
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18.9 重复 键 和 掩 码 列 表 


在 介绍 查找 路 由 表 项 的 源 代码 之 前 ， 必 须 先 理解 radix_node 结 构 中 的 两 个 字段 : 一 个 
是 rn_dupedkey， 它 构成 了 附加 的 含 重复 键 的 radix_node 结 构 链表 ; 另 一 个 是 
rn_mklist， 它 是 含 网 络 掩 码 的 radix_mask 结 构 链表 的 开始 。 

先 看 一 下 图 18-4 中 树 的 最 左边 标 有 “end” 和 “default” 的 两 个 框 。 这 些 就 是 重复 键 。 最 左 
边 设 有 RNF_ROOT 标 志 的 结 点 (在 图 18-34 中 的 rnh_nodes[0]) 有 一 个 为 全 0 比特 的 键 ， 但 是 它 和 
默认 路 由 的 键 相同 。 如 果 创 建 一 个 255.255.255.255 的 路 由 表 项 (但 该 地 址 是 受 限 的 广播 地 址 ， 不 
会 在 路 由 树 中 出 现 )， 则 我 们 会 在 树 的 最 右 端 结 点 (该 结 点 有 一 个 值 为 全 1 比特 的 键 ) 遇 到 同样 的 
问题 。 总 的 来 说 ， 如 果 每 次 都 有 不 同 的 掩 码 ， 那 么 Net/3 中 的 radix 结 点 函数 就 允许 重复 任何 键 。 

图 18-35 给 出 了 两 个 具有 全 0 比特 重复 键 的 结 点 。 在 这 个 图 中 ， 我 们 去 掉 了 rn_flags 中 
的 RNEF_ 前 缀 ， 并 且 省 略 了 非 空 父 指针 、 左 指针 和 右 指 针 ， 因 为 它们 与 要 讨论 的 内 容 无 关 。 


radix node() 
rn mklist 


x80 路 由 树 的 首部 : 图 
18-4 顶 部 比特 32 对 应 
的 结 点 


& o» ou 


CTIVE|ROOT 


比特 33 结 点 
的 左 指针 


radix node() 
0.0.0.0 
pe[21 9 Toopoopoo]o] ^ 9 





Sockaddr in 


图 18-35 值 为 全 0 的 键 的 重复 结 点 
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图 中 最 上 面 的 结 点 即 为 路 由 树 的 顶点 图 18-4 中 顶部 比特 32 对 应 的 结 点 。 接 下 来 的 两 
个 结 点 是 叶子 (它们 的 rn_b 为 负 值 )， 其 中 第 一 个 叶子 的 rn_dupedkey 成 员 指 向 第 二 个 结 点 。 
第 一 个 叶子 是 图 18-34 中 的 rnn_nodes[I0] 结 构 ， 该 结构 是 树 的 左边 标 有 “end” 的 结 点 一 一 它 
设 有 RNF_ROOT 标 志 。 它 的 键 被 rn_inithead 设 为 rn_zeros。 

第 二 个 叶子 是 默认 路 由 的 表 项 。 它 的 rn_key 指 向 值 为 0.0.0.0 的 sockaddr_in 结 构 ， 并 
具有 一 个 全 0 的 掩 码 。 由 于 掩 码 表 中 相同 的 掩 码 是 共享 的 ， 因 此 ， 该 叶子 的 rn_mask 也 指 问 


rn zeros, 


通常 ， 键 是 不 共享 的 ， 更 不 会 与 掩 码 共享 。 由 于 两 个 标 有 “end” 的 结 点 的 
rn_key 指 针 ( 县 有 RNF_ROOT 标 志 ) 是 由 rn_inithead( 图 18-34) 创 建 的 ， 因 此 这 两 
个 指针 例外 。 左 边 标 有 end 的 结 点 的 键 指向 rn_zeros， 右边 标 有 “end” 的 结 点 的 键 


指向 rn_ones。 


最 后 一 个 是 radix_mask 结 构 ， 树 的 顶 结 点 和 默认 路 由 对 应 的 叶子 都 指向 这 个 结构 。 这 
个 列表 是 树 的 顶 结 点 的 掩 码 列 表 ， 在 查找 网 络 掩 码 时 ， 回 漳 算 法 将 使 用 它 。radix_mask 结 
构 列 表 和 内 部 结 点 一 起 确定 了 运用 于 从 该 结 点 开始 的 子 树 的 枯 码 。 在 重复 键 的 例子 中 ， 掩 码 
列表 和 叶子 出 现在 一 起 ， 跟 着 的 这 个 例子 也 是 这 样 的 。 

现在 我 们 给 出 一 个 特意 添加 到 选 路 树 中 的 重复 键 和 所 得 到 的 掩 码 列表 。 在 图 18-4 中 有 一 
个 主机 路 由 127.0.0.1 和 一 个 网 络 路 由 127.0.0.0。 图 中 采用 了 A 类 网 络 路 由 的 默认 掩 码 ， 即 
0xff000000。 如 果 我 们 把 跟 在 A 类 网 络 号 之 后 的 24 bit 分 解 成 一 个 16 bit 子 网 号 和 一 个 8 bit 主 
机 号 ， 就 可 以 为 子 网 127.0.0 添 加 一 个 掩 码 为 0xffffff£00 的 路 由 : 

bsdi $ route add 127.0.0.0 -netmask Oxffffff00 140 252 13 33 

虽然 在 这 种 情况 下 使 用 网 络 127 没 什么 实际 意义 ， 但 是 我 们 感 兴趣 的 是 所 得 到 的 路 由 表 结 
构 。 虽 然 重复 键 在 Internet 协 议 中 并 不 常见 (除了 前 面 例子 中 的 默认 路 由 之 外 )， 但 是 仍 需要 利 
用 重复 键 来 为 所 有 网 络 的 0 号 子 网 提供 路 由 。 off 

在 网 络 号 127 的 这 三 个 路 由 表 项 中 存在 一 个 隐 含 
的 优先 规则 。 如 果 查 找 键 是 127.0.0.1， 则 它 和 这 三 个 
路 由 表 项 都 匹配 ， 但 是 只 选择 主机 路 由 ， 因 为 它 是 最 
匹配 的 :其 掩 码 (0xffffffff) 含 有 最 多 的 1。 如 果 
查找 键 是 127.0.0.2， 它 与 两 个 网 络 路 由 匹配 ， 但 是 掩 ^ 0x00000000 
码 为 Oxffffff00 的 子 网 0 的 路 由 比 掩 码 为 
0xff0000 的 路 由 更 匹配 。 如 果 查 找 键 为 127.0.2.3， 
那么 只 与 掩 码 为 0xftft000000 的 路 由 表 项 匹配 。 MER 

图 18-36 给 出 了 添加 路 由 之 后 得 到 的 树 结 构 ， 从 0x££000000 
图 18-4 中 对 应 比特 33 的 内 部 结 点 处 开始 。 由 于 这 个 重 ”图 18-36 反映 重复 键 127.0.0.0 的 路 由 树 
复 键 有 两 个 叶子 ， 我 们 用 两 个 框 来 表示 键 值 为 127.0.0.0 的 路 由 表 项 。 

图 18-37 给 出 了 所 得 到 的 raGix_nod 和 radix_mask 结 构 。 

首先 看 一 下 每 一 个 radix_node 的 radix_mask 结 构 的 链表 。 最 上 端 结 点 (比特 63) 的 掩 
码 列 表 由 0xffffff00 及 其 后 的 0xff000000 组 成 。 在 列表 中 首先 遇 到 的 是 更 匹配 的 掩 码 ， 
这 样 它 就 能 够 更 早 地 被 测试 到 。 第 二 个 radix_node(rn_b 值 为 -57 的 那个 ) 的 掩 码 列 表 与 第 
一 个 相间 。 但 是 第 三 个 radix_node 的 掩 码 列表 仅 由 值 为 0xf£000000 的 掩 码 构 成 。 














Oxffffff00 
Oxff000000 
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radix node() 
63 
0x01 
ACTIVE 比特 63 对 应 的 结 点 
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radix node() radix node() for 127.0.0.1 





rn b -57 
rn, bmask 0 Sockaddr in 


rn, flags ACTIVE 127.0.0.0 
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rn dupedkey 
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rn mklist 





rn b -41 
rn bmask 0 sockaddr_in 


rn_flags ACTIVE 127.0 .0: 0 


m key Be[2] 9 Tupe]e]o] — —9 — —] 


rn mask 
rn dupedkey NULL 
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radix maskí() 
rm off 

rm unused 
rm flags 

rm mklist 

rm mask 

rm refs 


Soo | 
Un 
N 


e 


radix mask() 
rm off -41 
rm unused 
rm flags 

rm mklist NULL 
rm mask 
rm refs 


OO 


eo 


图 18-37 网 络 127.0.0.0 的 重复 键 的 路 由 表 结 构 举例 


应 注意 的 是 ， 具 有 相同 值 的 掩 码 之 间 可 以 共享 ， 但 是 具有 相同 值 的 键 之 间 不 能 共享 。 这 
是 因为 掩 码 被 保存 在 它们 自己 的 路 由 树 中 ， 可 以 显 式 地 被 共享 ， 而 且 值 相同 的 掩 码 经 常 出 现 
(例如 ， 每 个 C 类 网 络 路 由 都 有 相同 的 掩 码 9xffffff00)， 但 是 值 相同 的 键 却 不 常见 。 


18.10 rn_match 函 数 
现在 我 们 介绍 rn_match 函 数 ， 在 Internet 协 议 中 ， 它 被 称 为 rnh_matchaddr 了 函数。 在 
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Ji Ec)Dm. S DUBSIEKHErtalloclBAWIBGrtallocipdiegrtalloceRJE 
调用 )。 有 具体 算法 如 下 : 

1) 从 树 的 顶端 开始 搜索 ， 直 到 到 达 与 查找 键 的 比特 相应 的 叶子 。 检 测 该 叶子 ， 看 能 否 得 
到 一 个 精确 的 匹配 (图 18-38)。 

2) 检测 该 叶 结 点 ， 看 是 否 能 得 到 匹配 的 网 络 地 址 。 

3) 回调 (图 18-43) 。 

图 18-38 给 出 了 rn_match 的 第 一 部 分 。 





135 struct radix node * radix.c 
136 rn match(v arg, head) 
137 void *y arg: 
138 struct radix node head *head; 
139 ( 
140 caddr t v - v arg; 
141 struct radix node *t - head-»rnh treetop, *x; 
142 caddr t cp - v, cp2, cp3; 
143 caddr t cplim, mstart; 
144 struct radix node *saved t, *top - t; 
145 int off - t-»rn off, vlen - *(u char *) cp, matched off; 
146 /* 
147 * Open code rn ,search(v, top) to avoid overhead of extra 
148 * subroutine call. 
149 */ 
150 for (; t-»rn b »- 0;) ( 
151 if (t-»rn bmask & cp[t-»rn off]) 
152 t = t-»rn r; /* right if bit on */ 
153 else 
154 t = t-»rn 1; /* left if bit off */ 
155 } 
156 /* 
157 * See if we match exactly as a host destination 
158 */ 
159 Cp += off; 
160 Cp2 - t-»rn key + off; 
161 cplim - v « vlen; 
162 for (; cp < cplim; cp++, cp244) 
163 if (*cp !- *cp2) 
164 goto onl; 
165 /* 
166 * This extra grot is in case we are explicitly asked 
167 * to look up the default. Ugh! 
168 */ 
169 if ((t-»rn, flags & RNF ROOT) && t-»rn dupedkey) 
170 t - t-»rn, dupedkey; 
171 return t; 
172 onl: 
radix.c 


图 18-38 rn match: 沿 着 树 向 下 搜索 ， 查 找 严 格 匹配 的 主机 地 址 


135-145 第 一 个 参数 v_arg 是 一 个 插口 地 址 结构 的 指针 ， 第 二 个 参数 head 是 该 协议 的 指向 
radix_node_head 结 构 的 指针 。 所 有 协议 都 可 调用 这 个 函数 (图 18-17)， 但 调用 时 使 用 不 同 


的 head 参 数 。 
在 变量 声明 中 ，off 是 树 的 顶 结 点 的 rn_off 成 员 ( 对 Internet 地 址 ， 其 值 为 4， 见 图 18-34)， 
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vlen 是 查找 键 插 日 地 址 结构 中 的 长 度 字段 (对 Internet 地 址 ， 其 值 为 16)。 

1. 沿 着 树 向 下 搜索 到 相应 的 叶子 
146-155 ”这 个 循环 从 树 的 顶 结 点 开始 ， 然 后 沿 树 的 左右 分 支 搜 索 ， 直 到 遇 到 一 个 叶子 为 止 
(rn_b 小 于 0)。 每 次 测试 相应 比特 时 ， 都 利用 了 事先 计算 好 的 rn_bmask 中 的 字 节 掩 码 和 事先 
计算 好 的 rn_off 中 的 偏 移 量 。 对 于 Intermet 地 址 而 言 ，rn_off 为 4、5、6 或 7。 

2. 检测 是 否 精 确 匹 配 
156-164 当 遇 到 叶子 时 ， 首 先 检测 能 否 精 确 匹 配 。 比 较 插 口 地 址 结构 中 从 协议 族 的 rn_off 值 
开始 的 所 有 字 节 。 图 18-39 给 出 了 Internet 揪 口 地 址 结构 的 比较 情况 。 


vlen- 16 
offz4 | 
byte 1 4 : 


vàro | 这 12 个 字 节 要 进行 比较 | 





图 18-39 比较 sockaddr_in 结 构 时 的 各 种 变量 
如 果 发 现 匹配 不 成 功 ， 就 立刻 跳 到 onl 。 


通常 ，sockaddr_in 的 最 后 8 个 字 节 为 0, 但 是 地 址 解析 协议 代理 (proxy 
ARP)(21.12 节 ) 会 设置 其 中 的 一 个 为 非 替 。 这 就 允许 一 个 给 定 的 IP 地 址 有 两 个 路 由 表 
项 : 一 个 对 应 于 正常 IP 地 址 (最 后 8 个 字 节 为 0)， 另 一 个 对 应 于 相同 IP 地 址 的 地 址 解析 
协议 代理 (最 后 8 个 字 节 中 有 一 个 为 非 零 )。 


图 18-39 中 的 长 度 字 节 在 函数 的 一 开始 时 就 赋值 给 了 vl1en， 并 且 我 们 还 会 看 到 rtalloc1l 
将 利用 family 成 员 来 选择 路 由 表 进 行 搜 索 。 选 路 函数 未 使 用 port 成 员 。 

3. 显示 地 检测 上 默认 地 址 
165-172 图 18-35 给 出 了 存储 在 键 为 0 的 重复 叶子 中 的 默认 路 由 。 第 一 个 重复 的 叶子 设 有 
RNF_ROOT 标 志 。 因 此 ， 如 果 在 匹配 的 结 点 中 设 有 RNF_ROOT 标 志 ， 并 且 该 叶子 含有 重复 键 ， 
那么 就 返回 指针 rn_dupedkey 的 值 ( 即 图 18-35 中 含 默认 路 由 的 结 点 的 指针 )。 如 果 路 由 树 中 
没有 默认 路 由 ， 则 查找 过 程 匹配 左边 标 有 “end” 的 叶子 ( 键 为 全 0 比特 ); 或 者 如 果 查 找 时 遇 到 
右边 标 有 “end” 的 叶子 ( 键 值 为 全 1 比特 )， 那 么 返回 指针 t， 它 指向 一 个 设 有 RNF_ROOT 标 志 
的 结 点 。 我 们 将 看 到 rtal1ioc1l 会 显 式 地 检查 匹配 结 点 是 否 设 有 这 个 标志 ， 并 判断 匹配 是 否 
失败 。 

程序 执行 到 此 时 ，rn_match 函 数 已 经 到 达 了 某 个 叶子 上 ， 但 是 它 并 不 是 查找 键 的 精确 
匹配 。 函 数 的 下 一 部 分 将 检测 该 叶子 是 否 为 匹配 的 网 络 地 址 ， 如 图 18-40 所 示 。 
173-174 cp 指向 该 查找 键 中 那个 不 相等 的 字 节 。matched_off 被 赋值 为 该 字 节 在 插口 地 
址 结构 中 的 位 置 偏 移 量 。 
175-183 do while 循 环 反 复 与 所 有 重复 叶子 中 的 每 一 个 具有 网 络 掩 码 的 叶子 进行 比较 。 
下 面 我 们 通过 一 个 例子 来 看 这 段 代码 。 假 定 我 们 要 在 图 18-4 所 示 的 路 由 表 中 查找 IP 地 址 
140.252.13.60。 查 找 会 在 标 有 140.252.13.32( 比 特 62 和 63 都 为 0) 的 结 点 处 终止 ， 该 结 点 包含 一 
个 网 络 掩 码 。 图 18-41 给 出 了 图 18-40 中 的 for 循 环 开始 执行 时 的 结构 。 
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173 matched off - cp - v; radix.c 
174 saved. t = t; 
175 do ( 
176 if (t-»rn mask) ( 
177 /* 
178 * Even if we don't match exactly as a host; 
179 * we may match if the leaf we wound up at is 
180 * a route to a net. 
181 */ 
182 Cp3 = matched off + t-»rn mask; 
183 Cp2 = matched off + t-»rn key; 
184 for (; Cp < cplim; cp++) 
185 if ((*cp2««4 ^ *cp) & *cp3-««) 
186 break; 
187 if (cp == cplim) 
188 return t; 
189 cp = matched off + v; 
190 } 
191 ) while (t = t-»rn dupedkey); 
192 t - saved t; 
radix.c 
图 18-40 rn_match 函 数 : 检测 是 否 为 匹配 的 网 络 地 址 
140.252. 13 . 60 
searchkey: I6T T — sc] fe[98[3c] 
matched offz7 | 
radix node() ! ! ` cplim 
v cp 
-60 cpa 
0 i 
32 






| 











[s] |] stlttlttleolj — 0  — 





cp3 
图 18-41 比较 网 络 掩 码 的 例子 


虽然 查找 键 和 路 由 表 键 都 是 sockaddr_in 结 构 ， 但 是 掩 码 的 长 度 并 不 相同 。 该 掩 码 长 度 
是 非 零 字 节 的 最 小 数目 。 从 该 点 之 后 直到 max_keylen 之 间 的 所 有 字 节 都 为 0。 
184-190 逐个 字 节 地 对 查找 关键 字 和 路 由 表 键 进行 异 或 运算 ， 并 将 结果 同 网 络 掩 码 进 行 逻 
辑 与 运算 。 如 果 所 得 到 的 字 节 出 现 非 零 值 ， 就 会 由 于 不 匹配 而 终止 循环 (习题 18.1)。 如 果 循 环 
正常 终止 ， 那么 与 网 络 掩 码 进行 逻辑 与 运算 后 的 查找 键 就 和 路 由 表 项 相 匹 配 。 程 序 将 返回 指 
向 该 路 由 表 项 的 指针 。 

查看 IP 地 址 的 第 四 个 字 节 ， 我 们 可 以 从 图 18-42 中 看 出 本 例子 是 如 何 匹 配 成 功 的 ， 以 及 IP 
地 址 140.252.13.188 是 如 何 匹 配 失败 的 。 采 用 这 两 个 地 址 ， 是 因为 它们 中 的 比特 57、62 和 63 都 
为 0， 查 找 都 在 图 18-41 给 出 的 结 点 上 终止 。 

第 一 个 例子 (140.252.13.60) 匹 配 成 功 是 因为 逻辑 与 运算 的 结果 为 0( 并 且 地 址 、 键 和 掩 码 中 
所 有 剩余 的 字 节 全 都 为 0)。 另 一 个 例子 匹配 不 成 功 是 因为 逻辑 与 运算 的 结果 为 非 零 。 
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| 查找 键 = 140.252.13.60 | = 140.252.13.60 | ERE = = 140.2 252. 52.13.188 188 | 


查找 键 字 节 (*cp) : 0011 1100 1011 1100 - bc. 
路 由 表 键 字 节 (*cp2) : 0010 0000 0010 0000 


异 或 : 0001 1100 1001 1100 
网 络 掩 码 字 节 (*cp3): ooo aaoo — 0000 0 00 | 0000 


图 18-42 PLE Anno 





191 如 果 路 由 表 项 含有 重复 键 ， 那 么 对 每 一 个 键 都 要 执行 一 次 该 循环 体 。 
rn_match 的 最 后 一 部 分 ， 如 图 18-43 所 示 ， 沿 路 由 树 向 上 回 斋 ， 以 查找 匹配 的 网 络 地 址 
或 默认 地 址 。 


radix.c 
193 /* start searching up the tree */ 

194 do ( 

195 Struct radix mask *m; 

196 t = t-»rn p; 

197 if (m = t-»rn mklist) ( 

198 /* ， 

199 * After doing measurements here, it may 
200 * turn out to be faster to open code 
201 * rn search m here ínstead of always 
202 * copying and masking. 

203 */ 

204 off - min(t-»rn off, matched off); 

205 mstart = maskedKey + off; 

206 do ( 

207 Cp2 - mstart; 

208 Cp3 = m-»rm mask + off; 

209 for (cp = v + off; cp < cplim;) 

210 *cp2++ = *cpe* & *cp3es; 

211 X z,.rn search(maskedKey, t); 

212 while (x && x-»rn mask !- m-»rm mask) 
213 x = x-»rn dupedkey; 

214 if (x && 

215 (Bcmp (mstart, x-»rn key + off, 
216 vlen - off) == 0)) 

217 return X; 

218 ) while (m - m-»rm mklist); 

219 ) - 
220 ) while (t !- top); 

221 return 0; 

222 ) radix.c 





18-43 rn match: 语 树 向 上 同济 


193-195 do while 循 环 沿 着 路 由 树 一 直 向 上 ， 检 测 每 一 层 的 结 点 ， 直 至 检测 到 树 的 顶端 为 止 。 
196 ”指向 父 结 点 的 指针 的 值 被 赋 给 了 指针 t， 即 向 上 移动 了 一 层 。 可 见 ， 在 每 一 个 结 点 中 包 
含 一 个 父 指 针 能 够 简化 回溯 操作 。 

197-210 对 于 回潮 到 的 每 一 层 ， 只 要 内 部 结 点 的 棒 码 列表 非 空 ， 就 对 该 层 进 行 检测 。 
rn_mklist 是 指向 radix_node 结 构 的 链表 的 指针 ， 链 表 中 的 每 一 个 raaix_nodqe 结 构 都 
包含 一 个 掩 码 ， 这 些 掩 码 将 应 用 于 从 该 结 点 开始 的 子 树 。 程 序 中 的 内 部 do while 循环 将 遍 
历 每 一 个 radix_mask 结 构 。 
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利用 前 面 的 例子 ，140.252.13.188， 图 18-44 给 出 了 在 最 内 层 的 for 循 环 开始 时 的 各 种 数据 
结构 。 这 个 循环 对 每 个 掩 码 中 的 字 节 和 对 应 的 查找 键 的 字 节 进行 逻辑 与 操作 ， 并 将 结果 保存 
在 全 局 变量 maskedKey 中 。 该 掩 码 值 为 0xffffffe0， 搜 索 会 从 图 18-4 中 的 叶 结 点 
140.252.13.32 处 回 滴 两 层 ， 到 达 测 试 比特 62 的 结 点 。 
. 10.252. 13 . 188 
查找 键 :| 16| T ^ — Tsc[tc [0a [bc] 


matched off- 
radix node() - ! cplim 








cp 


图 18-44 利用 掩 码 过 的 查找 键 进行 再 次 搜索 的 准备 


for 循 环 完成 后 ， 掩 码 过 程 也 就 完成 了 ， 再 调用 rn_search( 如 图 18-48 所 示 )， 其 调用 参 
数 以 maskedKey 为 查找 键 ， 以 指针 t 为 查找 子 树 的 顶点 。 图 18-45 给 出 了 我 们 所 举例 子 中 的 
maskedKey 的 值 。 


maskere af 0 ] 
off =7 | 


mstart 


图 18-45 调用 rn_search 时 的 maskedKey 


字 节 0xa0 是 0xbc(188， 查 找 键 ) 和 0xe0( 掩 码 ) 逻 辑 与 运算 的 结果 。 
211 rn_search 从 起 点 开始 沿 着 树 往 下 搜索 ， 根 据 查找 键 来 确定 沿 向 堪 或 向 右 的 分 支 进行 
搜索 ， 直 到 到 达 某 个 叶子 。 在 这 个 例子 中 ， 查 找 键 有 9 个 字 节 ， 如 图 18-45 所 示 ， 所 到 达 的 是 图 
18-4 中 标 有 140.252.13.32 的 那个 叶子 ， 这 是 因为 在 字 节 0xa0 中 比特 62 和 63 都 为 0。 图 18-46 给 
出 了 调用 Bcmp 检 验 是 否 匹 配 时 的 数据 结构 。 

由 于 这 两 个 9 字 节 的 字符 串 不 相同 ， 所 以 这 次 比较 失败 。 
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radix node() 
140.252. 13 . 
vlen - off =9 
eH 


waskexey: [OO — — a 5 
off =7 | 


mstart 


图 18-46 maskedKey 和 新 叶 结 点 之 间 的 比较 


140 . 252. 13 . 188 
查找 键 : | 16| 777] 8e [ £c [ 08 [ be ] 
po eme o0 ! 











-60 
0 
RNF ACTIVE 












32 


























S 


3 
0x80 

ACTIVE | ROOT 
4 

















rn p mstart 


radix nodei) 


ACTIVE | ROOT 


NULL 










us 
rn dupedkey NULL off= 


图 18-47 回溯 到 路 由 树 的 顶端 和 查找 默认 叶子 的 rn_search 
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212-221 该 while 循 环 处理 各 重复 键 ， 且 处 理 每 个 重复 键 时 的 掩 码 不 同 。 唯 一 被 比较 的 重 
复 键 是 那个 rn_mask 指 针 与 m- >z*m_mask 相 等 的 键 。 下 面 以 图 18-36 和 图 18-37 为 例 进行 说 明 。 
如 果 查 找 从 比特 63 的 结 点 处 开始 ， 第 一 次 内 部 ao while 循环 中 ，m 指 向 radix_mask 结 构 
0xffftffft00。 当 rn_seaxch 返 回 指向 第 一 个 重复 叶子 127.0.0.0 的 指针 时 ， 该 时 子 的 
rm_mask 等 于 m->rm_mask， 因 此 ， 就 调用 Bcmp。 如 果 比 较 失 败 ，m 的 值 就 被 设置 成 指向 列 
表 中 的 下 一 个 radix_mask 结 构 ( 具 有 掩 码 0xf£f000000) 的 指针 ， 并 且 对 新 掩 码 再 次 执行 do 
while 循 环 体 。rn_search 再 一 次 返回 指向 第 一 个 重复 叶子 127.0.0.0 的 指针 ， 但 是 它 的 
rn_mask 并 不 等 于 m- >rm_mask。While 继 续 进行 到 下 一 个 重复 叶子 ， 它 的 rn_mask 与 m- 
>rm_mask 恰 好 相等 。 

现在 回 到 查找 键 为 140.252.13.188 的 例子 中 ， 由 于 从 检测 比特 62 的 结 点 处 开始 的 搜索 失败 ， 
因此 ， 沿 着 树 向 上 继续 回 滴 ， 直 到 到 达 树 的 顶点 ， 该 项 点 就 是 沿 树 向 上 的 下 一 个 rn_mk1ist 
为 非 空 的 结 点 。 

图 18-47 给 出 了 到 达 树 的 顶 结 点 时 的 数据 结构 。 此 时 ， 计 算 maskedKey( 为 全 0)， 并 且 
rn_search 从 这 个 结 点 ( 树 的 顶 结 点 ) 处 开始 ， 继续 沿 着 树 的 左 分 支 向 下 两 层 到 达 图 18-4 中 标 
有 “default” 的 叶子 。 

当 rn_search 返 回 时 ，x 指 向 rn_b 值 为 -=33 的 radaix_node， 这 是 从 树 的 顶端 开始 沿 两 
个 左 分 支 向 下 之 后 遇 到 的 第 一 个 叶子 。 但 是 x->zn_mask( 为 空 ) 与 n- >rm_mask 不 等 ， 因 此 ， 
将 x->rn_dupedkey 赋 给 x。 用 于 测试 的 whi1e 循 环 再 次 执行 ， 但 是 ， 此 时 x-rn_mask 等 
于 m->zm_mask， 因 此 该 while 循 环 终 止 。Bcmp 对 从 mstart 开 始 的 12 个 值 为 0 的 字 节 和 从 
x->rn_key 加 4 开始 的 12 个 值 为 0 的 字 节 进行 比较 ， 结 果 相 等 ， 函 数 返 回 指针 x， 该 指针 指向 
默认 路 由 的 路 由 项 。 


18.11 rn_searchžt 


在 前 面 一 节 中 ， 我 们 已 经 知道 rn_match 调 用 了 rn_search 来 搜索 路 由 表 的 子 树 。 如 图 
18-48 所 示 。 


radix.c 

79 struct radix node * 

80 rn search(v, arg, head) 

81 void *v arg; 

82 struct radix node *head; 

83 ( 

84 struct radix, node *x; 

85 caddr t v; 

86 for (x = head, v = v arg; x-»rn.b >= 0;) { 

87 if (x-»rn bmask & v[x-»rn off]) 

88 x - x-»rn r; /* right if bit on */ 

89 else 

90 X = x-»rn 1l; /* left if bit off */ 

91 ) 

92 return (x); 

93 Nt; . 
radix.c 





图 18-48 rn searchi&ü?7É 


这 个 循环 和 图 18-38 中 的 相似 。 它 在 每 一 个 结 点 上 比较 查找 键 中 的 一 位 比特 ， 如 果 该 比特 
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为 0， 就 通 向 左边 的 分 支 ， 如 果 该 比特 为 1， 就 通 向 右边 的 分 支 。 在 遇 到 一 个 叶子 时 终止 搜索 ， 
并 返回 指向 该 叶子 的 指针 。 


18.12 小 结 


每 一 个 路 由 表 项 都 由 一 个 键 来 标识 :在 IP 协 议 中 就 是 目的 下 地址 ， 该 IP 地 址 可 以 是 一 个 主 
机 地 址 或 者 是 一 个 具有 相应 网 络 掩 码 的 网 络 地 址 。 一 旦 键 的 搜索 确定 了 路 由 表 项 ， 在 该 表 项 
中 的 其 他 信息 就 会 指定 一 个 路 由 器 的 IP 地 址 ， 到 目的 地 址 的 数据 报 就 会 发 往 访 指定 地 址 ， 还 
会 指明 要 用 到 的 接口 的 指针 、 度 量 等 等 。 
由 Internet 协 议 维护 的 信息 是 route 结 构 ， 该 route 结 构 只 有 两 个 成 员 构 成 : 指向 路 由 表 
项 的 指针 和 目的 地 址 。 在 UDP、TCP 和 原始 下 使 用 的 每 个 Internet 协 议 控制 块 中 ， 我 们 都 会 遇 
到 由 Internet 协 议 维护 的 route 结 构 。 
Patricia 树 数据 结构 非常 适合 于 路 由 表 。 由 于 路 由 表 的 查找 要 比 添加 或 者 删除 路 由 频繁 得 
多 ， 因 此 从 性 能 的 角度 来 看 ， 在 路 由 表 中 使 用 Patricia 树 就 更 加 有 意义 。Patricia 树 虽然 不 利于 
添加 和 删除 这 些 附加 工作 ， 但 是 加 快 了 查找 的 速度 。[Sklower 1991] 给 出 的 radix 树 方法 和 
Net/1 散 列表 的 比较 结果 表明 ， 用 radix 树 方法 构造 测试 树 用 比 Net/1 散 列表 法 快 一 倍 ， 搜 索 速 度 
快 三 们 。 
习题 
18.1 我 们 说 过 ， 在 图 18-3 中 ， 查 找 键 与 路 由 表 项 匹配 的 一 般 条 件 是 ， 它 和 路 由 表 掩 码 的 
逻辑 与 运算 的 结果 等 于 路 由 表 键 。 但 是 在 图 18-40 中 采用 了 不 同 的 测试 方法 。 请 建 
立 一 个 逻辑 真 值 表 以 证 明 这 两 种 方法 等 价 。 

18.2 假设 某 个 Ney3 系 统 中 的 路 由 表 需 要 20 000 个 表 项 (IP 地 址 )。 在 不 考虑 掩 码 的 情况 下 ， 
请 估算 大 约 需要 多 大 的 存储 器 ? 

18.3 radix_node 结 构 对 路 由 表 键 的 长 度 限制 是 多 少 ? 
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19.1 引言 


内 核 的 各 种 协议 并 不 直接 使 用 前 一 章 提供 的 函数 来 访问 选 路 树 ， 而 是 调用 本 章 提供 的 几 
个 函数 : rtalloc 和 rtallocl 是 完成 路 由 表 查 询 的 两 个 函数 ，rtrequest 函 数 用 于 添加 和 
删除 路 由 表 项 ; 另外 大 多 数 接口 在 接口 连接 或 断 开 时 都 会 调用 函数 rtinit。 

选 路 消息 在 两 个 方向 上 传递 信息 。 进 程 (如 route 命 令 ) 或 守护 进程 (routed 或 gateqd) 把 选 路 
消息 写 入 选 路 插口 ， 以 使 内 核 添加 路 由 、 删 除 路 由 或 修改 现 有 的 路 由 。 当 有 事件 发 生 时 ， 如 接 
口 断 开 、 收 到 重 定向 等 ， 内 核 也 会 发 送 选 路 消息 。 进 程 通过 选 路 插口 来 读 取 它 们 感 兴趣 的 内 容 。 
在 本 章 中 ， 我 们 将 讨论 这 些 选 路 消息 的 格式 及 其 含义 ， 关 于 选 路 插口 的 讨论 将 在 下 一 章 进行 。 

内 核 还 提供 了 另 一 种 访问 路 由 表 的 接口 ， 即 系统 的 sysct1 调 用 ， 我 们 将 在 本 章 的 结尾 部 
分 阐述 。 该 系统 调用 克 许 进程 读 取 整 个 路 由 表 或 所 有 已 配置 的 接口 及 接口 地 址 。 
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通常 ， 路 由 表 的 查找 是 通过 调用 rtalloc 和 rtalloc1 函 数 来 实现 的 。 图 19-1 给 出 了 


rtalloc. 


58 void route.c 
59 rtalloc(ro) 
60 struct route *ro; 
61 ( 
62 if (ro-»ro rt && ro-»ro rt-»rt ifp && (ro-»ro rt-»rt flags & RTF UP)) 
63 return; /* XXX */ 
64 ro-»ro rt - rtallocl(&ro-»ro dst, 1); 
65 } 
route.c 


图 19-1 rtalloceüX 


58-65 参数 ro 是 一 个 指针 ， 它 指向 TCP 或 UDP 所 使 用 的 Internet PCB( 第 22 章 ) 中 的 route 结 
构 。 如 果 ro 已 经 指向 了 菜 个 rtentry 结 构 ( 即 xo_rt 非 空 )， 而 该 结构 指向 一 个 接口 结构 且 路 
由 有 效 ， 则 函数 立即 返回 。 否 则 ，rtalloc1 将 被 调用 ， 调 用 的 第 二 个 参数 为 1 。 我 们 很 快 会 
看 到 该 参数 的 用 途 。 

如 图 19-2 所 示 ， rtalloc1l 调 用 了 rnh_matchaddqr 国 数 ， 对 于 Internaet 地 址 来 说 ， 该 函 
数 就 是 rn_match 数 (图 18-17)。 
66-76 第 一 个 参数 是 一 个 指针 ， 它 指向 一 个 含有 待 查找 地 址 的 插口 地 址 结构 。sa_fami1ly 
成 员 用 于 选择 所 查找 的 路 由 表 。 

1. 调用 rn_match 
77-78 如 果 符 合 下 列 三 个 条 件 ， 则 查找 成 功 。 

1) 存在 该 协议 族 的 路 由 表 ; 

2) xn_match 返 回 一 个 非 空 指针 ; HE 
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3) 匹配 的 radix_node 结 构 没 有 设置 RNF_ROOT 标 志 。 
注意 ， 树 中 标 有 end 的 两 个 叶子 都 设 有 RNF_ROOT 标 志 。 








route.c 
66 struct rtentry * 
67 rtallocl(dst, report) 
68 struct sockaddr *dst; 
69 int report; 
70 ( 
71 struct radix node head *rnh = rt tables[dst-»sa, family]; 
72 struct rtentry *rt; 
73 struct radix node *rn; 
74 struct rtentry *newrt = 0; 
75 struct rt addrinfo info; 
76 int S = splnet(), err = 0, msgtype = RTM MISS; 
77 if (rnh && (rn = rnh-»rnh, matchaddr((caddr t) dst, rnh)) && 
78 ((rn-»rn flags & RNF ROOT) == 0)) ( 
79 newrt - rt - (struct rtentry *) rn; 
80 if (report && (rt-»rt flags & RTF CLONING)) ( 
81 err - rtrequest(RTM RESOLVE, dst, SA(0), 
82 SA(0), 0, &newrt); 
83 if (err) ( 
84 newrt - rt; 
85 rt-»rt refcnts*; 
86 goto miss; 
87 } 
88 if ((rt = newrt) && (rt-»rt flags & RTF XRESOLVE)) ( 
89 . msgtype - RTM RESOLVE; 
90 goto miss; 
91 ) 
92 ) else 
93 rt-»rt refcents*; 
94 ) else ( 
95 rtstat.rts unreach-s*; 
96 miss:if (report) { 
97 bzero((caddr t) & info, sizeof(info)); 
98 info.rti info(RTAX DST] = dst; 
99 rt missmsg(msgtype, &info, 0, err); 
100 J 
101 H 
102 splx(s); 
103 return (newrt); 
104 ) 
route.c 
图 19-2 rtalloci 消 数 
2. 查找 失败 


94-101 在 这 三 个 条 件 中 只 要 有 一 个 条 件 没有 得 到 满足 ， 查 找 就 会 失败 ， 并 且 统 计 值 
rts_unreach 也 要 递增 。 这 时 ， 如 果 调 用 rcallcol 的 第 二 个 参数 (report) 为 1， 就 会 产生 
一 个 选 路 消息 。 任 何 感 兴趣 的 进程 都 可 以 通过 选 路 插口 读 取 该 消息 。 选 路 消息 的 类 型 为 
RTM_MISS， 并 且 函 数 返 回 一 个 空 指针 。 

79 ”如 果 三 个 条 件 都 满足 ， 则 查找 成 功 。 指 向 匹配 的 radix_node 结 构 的 指针 保存 在 rt 和 
newrt 中 。 注 意 ， 在 rtentry 结 构 的 定义 中 (图 18-24)， 两 个 radix_nodae 结 构 在 开头 的 位 置 
处 ， 如 图 18-8 所 示 ， 其 中 第 一 个 代表 一 个 时 结 点 。 因 此 ，rn_match 返 回 的 radix_nodae 结 
构 的 指针 事实 上 是 一 个 指向 rtentry 结 构 的 指针 ， 该 rtentry 结 构 是 一 个 匹配 的 叶 结 点 。 
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3. 创建 克隆 表 项 
80-82 如 果 调 用 的 第 二 个 参数 非 零 ， 而 且 匹 配 的 路 由 表 项 设 有 RTEF_CLONING 标 志 
rtredquest 图 数 发 送 RTM_RESOLVE 命 令 来 创建 一 个 新 的 rtentry 结 构 ， 该 结构 是 查询 结 
的 克隆 。ARP 将 针对 多 播 地 址 利用 这 一 机 制 。 

4. 克隆 失败 
83-87 如 果 rtrequest 返 回 一 个 差错 ，newrt 就 被 重新 设置 成 rn_match 所 返回 的 表 项 ， 
并 增加 它 的 引用 计数 。 然 后 程序 跳 转 到 miss 处 ， 产 生 一 条 RTM_MISS 消 息 。 

5. 检查 是 否 需要 外 部 转换 
88-91 如 果 rtrequest 成 功 ， 并 且 新 克隆 的 表 项 设 有 RTF_XRESOLVE 标 志 ， 则 程序 跳 至 
miss 处 ， 但 这 次 产生 的 是 RTM_RESOLVE 消 息 。 该 消息 的 目的 是 为 了 把 路 由 创建 的 时 间 通 知 
给 用 户 进程 ， 在 IP 地 址 到 X.121 地 址 的 转换 过 程 中 会 用 到 它 。 

6. 为 正常 的 成 功 查找 递增 引用 计数 
92-93 当 查 找 成 功 但 没有 设置 RTF_CLONING 标 志 时 ， 该 语句 将 递增 路 由 表 项 的 引用 计数 。 
这 是 本 函数 正常 情况 下 的 处 理 流 程 ， 之 后 程序 返回 一 个 非 空 的 指针 。 

虽然 是 这 样 小 的 一 段 程序 ， 但 是 在 rtalloc1i 的 处 理 过 程 中 有 很 多 选择 。 该 函数 有 7 个 不 
同 的 流程 ， 如 图 19-3 所 示 。 
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图 19-3 ztalloc1 处 理 过 程 小 结 


需要 解释 的 是 ， 如 果 存 在 默认 路 由 ， 前 两 行 ( 找 不 到 路 由 表 项 的 流程 ) 是 不 可 能 出 现 的 。 还 
有 ， 在 第 5、 第 6 两 行 中 的 rt_refcnt 也 做 了 递增 ， 因为 这 两 行 在 调用 rtrequest 了 时 使 用 了 
RTM_RESOLVE 参 数 ， 递 增 在 rtrequest 中 完成 。 


19.3 宏 RTFREE 和 rtfree 函 数 





宏 RTFREE， 如 图 19-4 所 示 ， 仅 在 引用 计数 小 于 等 于 1 时 才 调 用 rtfree 函 数 ; 否则 ， 它 仅 
完成 引用 计数 的 递减 。 
209-213 rtfree 函 数 如 图 19-5 所 示 。 当 不 存在 对 rtentry 结 构 的 引用 时 ， 函 数 就 释放 该 
结构 。 例 如 ， 在 图 22-7 中 ， 当 释放 一 个 协议 控制 块 时 ， 如 果 它 指向 一 个 路 由 表 项 ， 则 需要 调 
用 rtfree。 
105-115 首先 递减 路 由 表 项 的 引用 计数 ， 如 果 它 小 于 等 于 0 并 且 该 路 由 不 可 用 ， 则 该 表 项 可 
以 被 释放 。 如 果 该 表 项 设 有 RNF_ACTIVE 或 RNF_ROOT 标 志 ， 那 么 这 是 一 个 内 部 差错 。 因 为 ， 
如 果 设 有 RNF_ACTIVE， 那 么 该 结构 仍 是 路 由 表 的 一 部 分 ; 如 果 设 有 RNF_ROOT， 那 么 它 是 
一 个 由 rn_inithead 创 建 的 标 有 end 的 结构 。 
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- route.h 
209 #define RTFREE(rt) \ 
210 if ((rt)-»rt refcnt <= 1) \ 
211 rtfree(rt); \ 
212 else \ 
213 (rt)-»rt refcnt--; /* no need for function call */ 
route.h 
图 19-4 Z:RTFREE 
route.c 
105 void 
106 rtfree(rt) 
107 struct rtentry *rt; 
108 ( 
109 struct ifaddr *ifa; 
110 if (rt == 0) 
111 panic("rtfree"); 
112 rt-»rt, refcnt--; 
113 if (rt-»rt refcnt <= 0 && (rt-»rt flags & RTF,UP) == 0) ( 
114 if (rt-»rt nodes-»rn flags & (RNF ACTIVE | RNF ROOT)) 
115 panic("rtfree 2"); 
116 rttrash--; . 
117 if (rt-»rt  refcnt < 0) ( 
118 printf("rtfree: $x not freed (neg refs)\n", rt); 
119 return; 
120 } 
121 ifa = rt->rt_ifa; 
122 IFAFREE (ifa); 
123 Free(rt key(rt)); 
124 Free(rt); 
125 
126 ) 
route.c 


图 19-5 ztfree 国 数 : 释放 一 个 rtentry 结 构 


116 rttrash 是 一 个 用 于 调试 的 计数 器 ， 记 录 那 些 不 在 选 路 树 中 但 仍 未 释放 的 路 由 表 项 的 
数目 。 当 rtrequest 开 始 删除 路 由 时 ， 它 被 递增 ， 然 后 在 这 儿 递 减 。 正 常情 况 下 ， 它 的 值 应 
该 是 0。 

1. 释放 接口 引用 
117-122 先 查 看 引用 计数 。 确 认 引 用 计数 非 负 后 ，IFAFREE 将 递减 iftadqdar 结 构 的 引用 计 
数 。 当 计数 值 递 减 为 零 时 ， 调 用 ifafree 释 放 它 。 

2. 释放 选 路 存储 器 
123-124 释放 由 路 由 表 项 关键 字 及 其 网 关 所 占 的 存储 器 。 我 们 会 看 到 rt_setgate 把 它们 
分 配 在 存储 器 的 同一 个 连 着 的 块 中 。 因 此 ， 只 调用 一 个 Free 就 可 以 同时 把 它们 释放 。 最 后 还 
要 释放 rtentry 结 构 。 


路 由 表 引 用 计数 


路 由 表 引 用 计数 (rt_refcnt) 的 处 理 与 其 他 许多 引用 计数 的 处 理 不 同 。 我 们 看 到 ， 在 图 
18-2 中 ， 大 多 数 路 由 的 引用 计数 为 0， 而 这 些 没 有 引用 的 路 由 表 项 并 没有 被 删除 。 原 因 就 在 
rtfree 中 : 只 有 当 RTE_UP 标 志 被 删除 时 ， 引 用 计数 为 0 的 表 项 才 会 被 删除 。 而 仅 当 从 选 路 
树 中 删除 路 由 时 ， 该 标志 才 会 被 rtrequest 删 除 。 
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大 多 数 路 由 是 按 如 下 方式 使 用 的 。 
* 如 果 到 某 接口 的 路 由 是 在 配置 该 接口 时 自动 创建 的 (典型 的 ， 例 如 以 太 网 接口 的 配置 )， 
则 rtinit 用 命令 参数 RTM_ADD 来 调用 rtauest， 以 创建 新 的 路 由 表 项 ， 并 设置 它 的 引 
用 计数 为 1。 然后，rtinit 在 退出 前 把 该 引用 计数 递减 成 0。 
对 于 点 到 点 接口 的 处 理 过程 也 是 类 似 的 ， 所 以 路 由 的 引用 计数 也 是 从 0 开始 。 
如 果 路 由 是 由 route 命 令 手工 创建 的 ， 或 者 是 由 选 路 守护 进程 创建 的 ， 处 理 过 程 同 样 
是 类 似 的 。route_output 用 命令 参数 RTM_ADD 来 调用 rtrequest， 并 设置 新 路 由 
的 引用 计数 为 1。 在 退出 前 ，route_output 把 该 引用 计数 递减 到 0。 
因此 ， 所 有 新 创建 的 路 由 都 是 从 引用 计数 0 开始 的 。 
。 当 TCP 或 UDP 在 插口 上 发 送 IP 数 据 包 时 ，ip_output 调 用 rtalloc，rtallioc 再 调用 
rtallocl。 如 图 19-3 所 示 ， 如 果 找 到 了 路 由 ，rtallocl 就 会 递增 其 引用 计数 。 
所 查找 到 的 路 由 称 为 被 持 路 由 (held route)， 因 为 协议 持 有 指向 路 由 表 项 的 指针 ， 访 指针 
通常 被 包含 在 协议 控制 块 中 的 route 结 构 里 。 一 个 被 其 他 协议 持 有 的 rtentry 结 构 是 
不 能 被 删除 的 。 所 以 ， 在 rtfree 中 ， 当 引用 计数 为 0 时 ，rtentry 结 构 才能 被 删除 。 
。 协 议 通过 调用 RTFREE 或 rtfree 来 释放 被 持 路 由 。 在 图 8-24 中 ， 当 ip_output 检 测 到 
目的 地 址 改变 时 ， 我 们 已 经 使 用 了 这 种 处 理 。 在 第 22 章 中 ， 释 放 持 有 路 由 的 协议 控制 块 
时 ， 我 们 还 会 遇 到 这 种 处 理 。 
在 后 面 的 代码 中 可 能 会 引起 混 请 的 是 ，rtallocl 经 常 被 调用 以 判断 路 由 是 否 存在 ， 而 调 
用 者 并 非 试图 持 有 该 路 由 。 因 为 rtallocl! 递 增 了 该 路 由 的 引用 计数 器 ， 所 以 调用 者 就 立即 
递减 该 计数 器 。 
考虑 一 个 被 rtrequest 删 除 的 路 由 。 它 的 RTF_UP 标 志 被 清除 ， 并 且 ， 如 果 没 有 被 持 有 
( 它 的 引用 计数 为 0)， 就 要 调用 rtfree。 但 rtfree 认 为 引用 计数 小 于 0 是 错 的 ， 所 以 
rtrequest 查 看 它 的 引用 计数 ， 如 果 小 于 等 于 0， 就 递增 该 计数 值 并 调用 rtfree。 通 常 ， 这 
将 使 引用 计数 变 成 1， 之 后 ，rtfree 把 引用 计数 递减 到 0， 并 删除 该 路 由 。 


19.4 rtrequesti&áT/ 


rtrequest AE UR JURO ERE ER HI ESL OS BE o. Ed 19-628 LH. T BH ERU — EC RE ER 
数 。 





route, output 


图 19-6 调用 rtredquest 的 国 数 


rtrequest 是 一 个 switch 语 句 ， 每 个 case 对 应 一 个 命令 : RTM ADD, RTM, DELETE 
和 RTM_RESOLVE。 图 19-7 给 出 了 该 函数 的 开头 一 段 以 及 RTM_DELETE 命 令 的 处 理 。 
290-307 第 二 个 参数 ，9st， 是 一 个 插口 地 址 结构 ， 它 指定 在 路 由 表 中 添加 或 删除 的 表 项 。 
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表 项 中 的 sa_family 用 于 选择 路 由 表 。 如 果 flags 参 数 指出 该 路 由 是 主机 路 由 (而 不 是 到 某 
个 网 络 的 路 由 )， 则 设置 netmask 指 针 为 空 ， 忽 略 调用 者 设置 的 任何 值 。 








route.c 
290 int 
291 rtrequest(req, dst, gateway, netmask, flags, ret nrt) 
292 int req, flags; 
293 struct sockaddr *dst, *gateway, *netmask; 
294 struct rtentry **ret nrt; 
295 ( f 
296 int s = spinet (); 
297 int error = 0; 
298 struct rtentry *rt; 
299 struct radix node *rn; 
300 struct radix node head *rnh; 
301 struct ifaddr *ifa; 
302 struct sockaddr *ndst; 
303 4&define senderr(x) ( error = x ; goto bad; } 
304 if ((rnh = rt tables(dst-»sa family]) == 0) 
305 senderr (ESRCH); 
306 ' if (flags & RTF HOST) 
307 netmask = 0: 
308 switch (req) ( 
309 case RTM DELETE: 
310 if ((rn = rnh-»rnh deladdr(dst, netmask, rnh)) == O0) 
311 senderr(ESRCH); . 
312 if (rn-»rn flags & (RNF ACTIVE | RNF ROOT)) 
313 panicí("rtrequest delete"); 
314 rt - (struct rtentry *) rn; 
315 rt-»rt flags &- ^"RTF UP; 
316 if (rt-»rt gwroute) ( 
317 rt - rt-»rt gwroute; 
318 RTFREE (rt); 
319 (rt = (struct rtentry *) rn)-»rt gwroute = 0; 
320 } 
321 if ((ifa = rt-»rt ifa) && ifa->ifa_rtrequest) 
322 ifa-»ifa rtrequest(RTM DELETE, rt, SA(0)); 
323 rttrash++; 
324 if (ret nrt) 
325 *ret nrt - rt; 
326 else if (rt-»rt refcnt «- 0) ( 
327 rt-»rt, refcnt4-*; 
328 rtfree(rt); 
329 } 
330 break; 
route.c 


图 19-7 rtrequest 国 数 : RTM_DELETE 命 令 


1. 从 选 路 树 中 删除 路 由 
309-315 rnh_deladdr 函 数 (图 18-17 中 的 rn_delete) 从 选 路 树 中 删除 表 项 ， 返 回 相 应 
rtentry 结 构 的 指针 ， 并 清除 RTF_UP 标 志 。 

2. 删除 对 网 关 路 由 表 项 的 引用 
316-320 如果 该 表 项 是 一 个 经 过 某 网 关 的 非 直接 路 由 ， 则 RTFREE 递 碱 该 网 关 路 由 表 项 的 
引用 计数 。 如 它 的 引用 计数 被 减 为 0， 则 删除 它 。 设 置 rt_gwroute 指 针 为 空 ， 并 将 rt 设置 
成 原来 要 删除 的 表 项 。 
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3. 调用 接口 请 求 函数 
321-322 如果 该 表 项 定义 了 ifa_rtrequest 国 数 ， 就 调用 该 函数 。ARP 会 使 用 该 图 数 ， 
例如 ， 在 第 21 章 中 用 它 来 删除 对 应 的 ARP 表 项 。 

4. 返回 指针 或 删除 引用 
323-330 ”因为 该 表 项 在 接着 的 代码 里 不 一 定 被 删除 ， 所 以 递增 全 局 变量 rttrash。 如 果 调 
用 者 需要 选 路 树 中 被 删除 的 rtentry 结 构 的 指针 ( 即 如 果 ret_nrt 非 空 )， 则 返回 该 指针 ， 但 
此 时 不 能 释放 该 表 项 : 调用 者 必须 在 使 用 完 该 表 项 后 调用 rtfree 来 删除 它 。 如 果 ret_nrt 
为 空 ， 则 该 表 项 被 释放 : 如 果 它 的 引用 计数 小 于 等 于 0， 则 递增 该 计数 值 ， 并 调用 rtfree。 
break 语 句 将 使 函数 退出 。 

图 19-8 给 出 了 国 数 的 下 一 部 分 ， 用 于 处 理 RTM_RESOLVE 命 令 。 只 有 rtal1locl 能 够 携带 
此 命令 参数 调用 本 函数 。 也 只 有 在 从 一 个 设 有 RTF_CLONING 标 志 的 表 项 中 克隆 一 个 新 的 表 
项 时 ，rtallocl 才 这 样 用 。 


route.c 
331 case RTM RESOLVE: 
332 if (ret nrt == 0 || (rt = *ret nrt) == 0) 
333 senderr (EINVAL); 
334 ifa = rt-»rt ifa; 
335 flags = rt-»rt flags & ^"RTF CLONING; 
336 gateway = rt-»rt, gateway; 
337 if ((netmask = rt-»rt genmask) == 0) 
338 flags |= RTF HOST; 
339 goto makeroute; 
route.c 


图 19-8 rtrequest 函 数 : RTM_RESOLVE 命 令 


331-339 最 后 一 个 参数 ，ret_nrt， 在 这 个 命令 里 的 用 途 不 同 : 它 是 一 个 设 有 
RTF_CLONING 标 志 的 路 由 表 项 的 指针 (图 19-2)。 新 的 表 项 具有 相同 的 rt_i fa 指针 、 相 同 的 
rt_gateway 和 相同 的 标志 (RTF_CLONING 标 志 被 清除 )。 如 果 被 克隆 表 项 的 rt_genmask 指 
针 为 空 ， 则 新 表 项 是 一 个 主机 路 由 ， 因 此 要 设置 它 的 RTF_HOST 标 志 ; 否则 新 表 项 为 网 络 路 
由 ， 其 网 络 掩 码 通过 复制 rt_genmask 得 到 。 在 本 节 的 结尾 部 分 ， 我 们 给 出 了 克隆 带 网 络 掩 
码 的 路 由 的 一 个 例子 。 这 个 case 将 跳 转 至 下 个 图 中 的 makeroute 标 记 处 继续 进行 。 

图 19-9 给 出 了 RTM_ADD 命 令 的 代码 。 

5. 定位 相应 的 接口 
340-342 函数 ifa_ifwithroute 为 目的 (dst) 查 找 适 当 的 本 地 接口 ， 并 返回 指向 该 接口 
的 ifaddr 结 构 的 指针 。 

6. 为 路 由 表 项 分 配 存 储 器 
343-348 ”分配 了 一 个 rtentry 结 构 。 在 前 一 章 中 我 们 知道 ， 该 结构 包含 了 两 个 选 路 树 的 
radix_node 结 构 及 其 他 路 由 信息 。 该 结构 被 清 零 ， 之 后 ， 其 标志 rt_f1ags 被 设置 成 调用 
本 函数 的 fl1ags 参 数 ， 同 时 再 设置 RTF_UP 标 志 。 

7. 分 配 并 复制 网 关 地 址 
349-352 rt_gateway 国 数 (图 19-11) 为 路 由 表 (ast) 及 其 gateway 分 配 了 存储 器 ， 然 后 将 
gateway 复 制 到 新 分 配 的 存储 器 中 ， 并 设置 指针 rt_key、rt_gateway 和 rt_gwroute。 

8. 复制 目的 地 址 
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route.c 
340 case RTM ADD: 
341 if ((ifa = ifa ifwithroute(flags, dst, gateway)) == 0) 
342 ` senderr ( ENETUNREACH) ; 
343 makeroute: 
344 R_Malloc(rt, struct rtentry *, sizeof(*rt)); 
345 if (rt == 0) 
346 senderr (ENOBUFS); 
347 Bzero(rt, sizeof(*rt)); 
348 rt-»rt flags = RTE _ UP | flags; 
349 if (rt setgate(rt, dst, gateway)) ( 
350 Free(rt); 
351 senderr (ENOBUFS); 
352 } 
353 ndst = rt, key (rt); 
354 if (netmask) { ` 
355 rt maskedcopy (dst, ndst, netmask}; 
356 } else 
357 Bcopy (dst, ndst, dst-»sa len); 
358 rn = rnh->rnh.addaddr ((caddr_t}) ndst, (caddr t) netmask, 
359 i rnh, rt-»rt nodes); 
360 if (rn == 0) ( 
361 if (rt-»rt gwroute) 
362 rtfree(rt-»rt gwroute); 
363 Free(rt, key (rt)); 
364 Free(rt); 
365 senderr (EEXIST); 
366 } 
367 ifa->ifa_refcnt++; 
368 rt->rt_ifa = ifa; 
369 rt-»rt ifp = ifa->ifa_ifp; 
370 if (req == RTM_RESOLVE) 
371 rt->rt_rmx = (*ret_nrt)->rt_rmx; /* copy metrics */ 
372 if (ifa->ifa_rtrequest) 
373 ifa->ifa_rtrequest (req, rt, SA(ret_nrt ? *ret nrt : 0)); 
374 if (ret nrt) ( 
375 *ret nrt = rt; 
376 rt-»rt refcnt««; 
377 ) 
378 break; 
379 } 
380 bad: 
381 splx(s); 
382 return (error); 
383 ) 
route.c 





图 19-9 rtrequesttR-E: RTM_ADD 命 令 


353-357 ”把 目的 地 址 (路 由 表 表 项 ast) 复 制 到 rn_key 所 指向 的 存储 器 中 。 如 果 提 供 了 网 络 
掩 码 ， 则 rt_maskedcopy 对 dst 和 netmask 进 行 逻 辑 与 运算 ， 得 到 新 的 表 项 。 否 则 ，dst 
就 会 被 复制 成 新 的 表 项 。 对 dst 和 netmask 进 行 逻辑 与 运算 是 为 了 确保 表 中 的 表 项 已 经 和 它 
的 掩 码 进 行 了 与 运算 。 这 样 ， 查 找 表 项 与 表 中 的 表 项 进行 比较 时 ， 只 需要 另外 对 查找 表 项 和 
掩 码 进行 逻辑 与 运算 就 可 以 了 。 例 如 ， 下 面 的 这 个 命令 向 以 太 网 接口 1e0 添 加 了 另 一 个 IP 地 
址 (一 个 别名 )， 其 子 网 为 12 而 不 是 13。 


bsdi $ ifconfig le0 inet 140.252.12.63 netmask Oxffffffe0 alias 
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该 例子 中 存在 的 一 个 问题 是 ， 我 们 所 指定 的 全 1 的 主机 号 是 错误 的 。 不 过 ， 该 表 项 存 人 路 
由 表 后 ， 我 们 用 netstat 验 证 可 知 该 地 址 已 经 和 掩 码 进行 过 逻辑 与 运算 了 。 


Destination Gateway Flags Refs Use Interface 
140.252.12.32 link#1 UC 0 0 leO 


9. 往 选 路 树 中 添加 表 项 
358-366 rnh_addaddr 困 数 ( 图 18-17 中 的 rn_addroute) 向 选 路 树 中 添加 这 个 rtentry 
结构 ， 其 中 附带 了 它 的 目的 地 址 和 掩 码 。 如 果 有 差错 产生 ， 则 释放 该 结构 ， 并 返回 
EEXIST( 即 ， 该 表 项 已 经 存在 于 路 由 表 中 了 )。 

10. 保存 接口 指针 
367-369 递增 ifaqdr 结 构 的 引用 计数 ， 并 保存 ifaddar 和 iftnet 结 构 的 指针 。 

11. 为 新 克隆 的 路 由 复制 度量 
370-371 ”如果 命令 是 RTM_RESOLVE( 不 是 RTM_ADD)， 则 把 被 克隆 的 表 项 中 的 整个 度量 结 
构 复制 到 新 的 表 项 里 。 如 果 命 令 是 RTM_ADD， 则 调用 者 可 在 序数 返回 后 设置 该 度量 值 。 

12. 调用 接口 请 求 函数 
372-373 如果 为 该 表 项 定义 了 ifa_rtrequest 函 数 ， 则 调用 该 函数 。 对 于 RTM_ADD 和 
RTM_RESOLVE 命 令 ，ARP 都 要 用 该 函数 来 完成 一 些 额外 的 处 理 。 

13. 返回 指针 并 递增 引用 计数 
374-378 ”如 果 调 用 者 需要 该 新 结构 的 指针 ， 则 通过 ret_nrt 返 回 该 指针， 并 将 引用 计数 值 
从 0 递增 到 T. 


例 : 克隆 的 带 网 络 掩 码 的 路 由 


仅 当 rtrequest 的 RTM_RESOLVE 命 令 创建 克隆 路 由 时 ， 才 使 用 rt_genmask 的 值 。 如 
果 rt_genmask 指 针 非 空 ， 则 它 指向 的 插口 地 址 结构 就 成 了 新 创建 路 由 的 网 络 掩 码 。 在 我 们 
的 路 由 表 中 ， 即 图 18-2， 克 隆 的 路 由 是 针对 本 地 以 太 网 和 多 播 地 址 的 。 下 面 的 例子 引 自 
[Sklower 1991] ， 它 提供 了 克隆 路 由 的 不 同 用 法 。 另 外 一 个 例子 见习 题 19 .2。 

考虑 一 个 B 类 网 络 ， 如 128 .1， 它 在 点 到 点 链 路 之 外 。 子 网 掩 码 是 0xffffff00， 其 中 含 8 
比特 的 子 网 号 和 8 比特 的 主机 号 。 我 们 要 为 所 有 可 能 的 254 个 子 网 提供 路 由 表 项 ， 这 些 表 项 的 
网 关 是 与 本 机 直接 相连 的 路 由 器 ， 该 路 由 器 知道 如 何 到 达 与 128 .1 网 络 相连 的 链 路 。 

假设 该 网 关 不 是 我 们 的 默认 路 由 器 ， 则 最 简单 的 方法 就 是 创建 单个 表 项 ， 该 表 项 以 
128.1.0.0 为 目的 、 以 0xffff0000 为 掩 码 。 可 是 ， 假 设 128.1 网 络 的 拓扑 使 所 有 可 能 的 254 
个 子 网 中 的 每 一 个 都 有 不 同 的 运营 特性 : RTTs、MTUs 和 时 延 等 。 那 么 如 果 每 个 子 网 都 有 单 
独 的 路 由 表 项 ， 我 们 就 能 够 看 到 ， 无 论 何 时 连接 断 开 后 ，TCP 都 会 刷新 该 路 由 表 项 的 统计 值 ， 
如 路 由 的 RTT、RTT 变 量 等 (图 27-3)。 尽 管 我 们 可 以 用 route 命 令 手 工地 为 254 个 子 网 中 的 每 
一 个 子 网 都 添加 路 由 表 项 ， 但 更 好 的 方法 是 采用 克隆 机 制 。 : 

由 系统 管理 员 先 创建 一 个 以 128.1.0.0 为 目的 地 ， 以 0xffff0000 为 网 络 掩 码 的 表 项 。 再 
设置 其 RTF_CLONING 标 志 ， 并 设置 genmask 为 0xffffff00( 与 网 络 撞 码 不 同 )。 这 时 ，. 如 
果 在 路 由 表 中 查找 128.1.2.3， 而 路 由 表 中 没有 子 网 128.1.2 的 表 项 ， 那 么 具有 掩 码 
oxffff0000 的 网 络 128.1 的 表 项 为 最 佳 匹配 。 因 为 该 表 项 设 有 RTF_CLONING 标 志 ， 所 以 要 
创建 一 个 新 的 表 项 ， 新 表 项 以 128.1.2 为 目的 地 ， 以 0xffffff00(genmask 的 值 ) 为 网 络 掩 码 。 
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这 样 ， 下 一 次 引用 该 子 网 内 的 主机 时 ， 如 128.1.2.88， 最 佳 匹 配 就 是 新 创建 的 表 项 。 
19.5 rt_setgate 函 数 


选 路 树 中 的 每 个 叶子 都 有 一 个 表 项 (rt_key， 也 就 是 在 rtentry 结 构 开头 的 
radix_node 结 构 的 rn_key 成 员 ) 和 一 个 相关 联 的 网 关 (rt_gateway)。 在 创建 路 由 表 项 时， 















WIL Tee — 9 — 3 
So0ckaddr in sockaddr_ in 
rtentry() 
radix node() 
(叶子 ) 
| radix node() 
sdl family 


Sdl index 
sdl,. type 
sdl alen 


以 太 网 地 址 | 
zopje 


Sockaddr in BSockaddr di 
图 19-10 路 由 表 表 项 和 相关 网 关 示 例 
这 个 例子 给 出 了 图 18-2 中 的 两 个 表 项 ， 它 们 的 表 项 分 别 是 127.0.0.1 和 140.252.13.33。 前 一 
个 的 网 关 成 员 指 向 一 个 Internet 插 口 地 址 结构 ， 后 一 个 的 网 关 成 员 指 向 一 个 含 以 太 网 地 址 的 数 
据 链 路 插口 地 址 。 前 一 个 是 在 系统 初始 化 时 ， 由 route 系 统 将 其 添加 到 路 由 表 中 的 ， 后 一 个 


是 由 ARP 创 建 的 。 
在 图 19-11 中 ， 我 们 有 意识 地 把 两 个 由 zt_key 指 向 的 结构 紧 挨 着 画 在 一 起 ， 因 为 它们 是 


由 rt_setgate 一 起 分 配 的 。 
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- route.c 
384 int 
385 rt, setgate(rt0, dst, gate) 
386 struct rtentry *rt0; 
387 struct sockaddr *dst, *gate; 
388 ( 
389 . caddr t new, old; 
390 int dlen = ROUNDUP(dst-»sa len), glen = ROUNDUP(gate-»sa len); 
391 struct rtentry *rt - rt0; 
392 if (rt-»rt, gateway == 0 [|| glen > ROUNDUP(rt-»rt, gateway-»Ssa, len)) ( 
393 old = (caddr t) rt key(rt); 
394 R Malloc(new, caddr t, dlen + glen); 
395 if (new == O0) 
396 return 1; 
397 rt-»rt, nodes-»rn key = new; 
398 ) else ( 
399 new = rt-»rt nodes-»rn, key; 
400 old = 0; 
401 } 
402 Bcopy (gate, (rt->rt_gateway = (struct sockaddr *) (new + dien)), glen); 
403 if (old) ( 
404 Bcopy(dst, new, dlen); 
405 Free (old); 
406 H ， 
407 if (rt-»rt, gwroute) ( 
408 rt = rt-»rt gwroute; 
409 RTFREE (rt); 
410 rt = rt0; 
411 rt-»rt gwroute - 0; 
412 ) 
413 if (rt-»rt, flags & RTF GATEWAY) ( 
414 rt-»rt gwroute - rtallocl(gate, 1); 
415 } 
416 return 0; 
417 ) 

route.c 





图 19-11 rt_setgate 国 数 


1. 依据 播 口 地 址 结构 设置 长 度 
384-391 dlen 是 目的 播 口 地 址 结构 的 长 度 ，g1len 是 网 关 揪 口 地 址 结构 的 长 度 。ROUNDUP 
宏 把 数值 上 舍 入 成 4 的 倍数 个 字 节 ， 但 大 多 数 插口 地 址 结构 的 长 度 本 身 就 是 4 的 倍数 。 

2. 分 配 存 储 器 
392-401 如 果 还 没有 给 该 路 由 表 表 项 和 网 关 分 配 存 储 器 ， 或 glen 大 于 当前 rt_gateway 所 
指向 的 结构 的 长 度 ， 则 分 配 一 片 新 的 存储 器 ， 并 使 Yrn_key 指 向 新 分 配 的 存储 器 。 

3. 使 用 分 配给 表 项 和 网 关 的 存储 器 
398-401 由 于 已 经 给 表 项 和 网 关 分 配 了 一 片 足够 大 小 的 存储 器 ， 因 此 ， 直 接 将 new 指 向 这 
个 已 经 存在 的 存储 器 。 

4. 复制 新 网 关 
402 复制 新 的 网 关 结 构 ， 并 且 设置 rt_gateway， 使 其 指向 插口 地 址 结构 。 

5. 从 原 有 的 存储 器 中 将 表 项 复制 到 新 存储 器 中 
403-406 如 果 分 配 了 新 的 存储 器 ， 则 在 网 关 字段 被 复制 前 ， 先 复制 路 由 表 表 项 dast， 并 释 
放 原 有 的 存储 器 片 。 

6. 释放 网 关 路 由 指针 
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407-412 如 果 该 路 由 表 项 含有 非 空 的 rt_gwroute 指 针 ， 则 用 RTFREE 释 放 该 指针 所 指向 
的 结构 ， 并 设置 rt_gwroute 为 空 。 

7. 查找 并 保存 新 的 网 关 路 由 指针 
413-415 如果 路 由 表 项 是 一 个 非 直接 路 由 ， 则 rtallocl 查 找 新 网 关 的 路 由 表 项 ， 并 将 它 
保存 在 rt_gwroute 中 。 如 果 非 直接 路 由 指定 的 网 关 无 效 ， 则 rt_setgate 并 不 返回 任何 差 
错 ， 但 rt_gwroute 会 是 一 个 空 指针 。 


19.6 rtiniteifiA 


Internet 协 议 添 加 或 删除 相关 接口 的 路 由 时 ， 对 rcinit 的 调用 有 四 个 。 

。 在 设置 点 到 点 接口 的 目的 地 址 时，in_control 调 用 rtinit 两 次 。 第 一 次 调用 指定 
RTM_DELETE 命 令 ， 以 删除 所 有 现存 的 到 该 目的 地 址 的 路 由 (图 6-21); 第 二 次 调用 指定 
RTM_ADD 命 令 ， 以 添加 新 路 由 。 

。in_ifinit 调 用 rtinit 为 广播 网 络 添 加 一 条 网 络 路 由 或 为 点 到 点 链 路 (图 6-19) 添 加 一 条 主 
机 路 由 。 如 果 是 给 以 太 网 接口 添加 的 路 由 ， 则 in_ifinit 自 动 设置 其 RTF_CLONING 标 志 。 
。in_ifscrub 调 用 rtinit， 以 删除 一 个 接口 现存 的 路 由 。 | 


图 19-12 给 出 了 rtinit 函 数 的 第 一 部 分 。cmd 参 数 只 能 是 RTM_ADD 或 RTM_DELETE。 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 routec 
441 int 

442 rtinit(ifa, cmd, flags) 

443 struct ifaddr *ifa; 


444 int cmd, flags; 

445 ( 

446 Struct rtentry *rt; 

447 Struct sockaddr *dst; 

448 struct sockaddr *deldst; 

449 struct mbuf *m = 0; 

450 Struct rtentry *nrt - 0; 

451 int error; 

452 dst = flags & RTF HOST ? ifa-»ifa dstaddr : ifa-»ifa addr; 
453 if (cmd -- RTM DELETE) ( 

454 if ((flags & RTF. HOST) =-= 0 && ifa-»ifa netmask) ( 
455 m = m get(M WAIT, MT SONAME); 

456 deldst = mtod(m, struct sockaddr *); 

457 rt maskedcopy (dst, deldst, ifa-»ifa netmask); 
458 dst - deldst; 

459 ) 

460 if (rt = rtalloci(dst, 0)) ( 

461 rt-»rt refcnt--; 

462 if (rt-»rt ifa !- ifa) ( 

463 if (m) 

464 (void) m free (m); 

465 return (flags & RTF HOST ? EHOSTUNREACH 
466 : ENETUNREACH) ; 

467 } 

468 } 

469 } 

470 error = rtrequest(cmd, dst, ifa->ifa_addr, ifa->ifa_netmask, 
471 flags | ifa-»ifa flags, &nrt); 

472 if (m) 

473 (void) m freeí(m); 


route.c 





图 19-12 rt initt&ZE: 调用 rtreauest 处 理 命令 
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， 1. 为 路 由 获取 目的 地 址 | 

452 ”如果 是 一 个 到 达 某 主机 的 路 由 ， 则 目的 地 址 是 点 到 点 链 路 的 另 一 端 。 否 则 ， 我 们 处 理 的 
就 是 一 个 网 络 路 由 ， 其 目的 地 址 是 接口 的 单 播 地 址 (经 ifa_netmask 掩 码 过 的 )。 

2. 用 网 络 掩 码 给 网 络 地 址 掩 码 
453-459 如 果 要 删除 路 由 ， 则 必须 在 路 由 表 中 查找 该 目的 地 址 ， 并 得 到 它 的 路 由 表 项 。 如 
果 要 删除 的 是 一 个 网 络 路 由 且 接 口 拥 有 相关 联 的 网 络 掩 码 ， 则 分 配 一 个 mbuf， 用 
rt_maskedcopy 对 目的 地 址 和 调用 参数 中 的 掩 码 地 址 进行 逻辑 与 运算 ， 并 将 结果 复制 到 
mbuf 中 。 令 ast 指 向 mbuf 中 掩 码 过 的 复制 值 ， 它 就 是 下 一 步 要 查找 的 目的 地 址 。 

3. 查找 路 由 表 项 
460-469 rtallocl 在 路 由 表 中 查找 目的 地 址 ， 如 果 能 找到 ， 则 先 递减 该 表 项 的 引用 计数 
(因为 rtallocl 递 增 了 该 引用 计数 )。 如 果 路 由 表 中 该 接口 的 ifaddr 指 针 不 等 于 调用 者 的 参 
数 ， 则 返回 一 个 差错 。 

4. 处 理 请 求 
470-473 Tt_request 执 行 RTM_ADD 或 RTM_DELETE 命 令 。 当 zct_request 返 回 时 ， 如 
果 之 前 分 配 了 mbuf， 则 释放 它 。 

图 19-13 给 出 了 rtinit 的 后 半 部 分 。 





- route.c 
474 if (cmd == RTM DELETE && error == 0 && (rt = nrt)) ( 
475 rt newaddrmsg(cmd, ifa, error, nrt); 
476 if (rt-»rt refcnt «- 0) ( 
477 rt-»rt refcnt-4*; 
478 rtfree(rt); 
479 ) 
480 } 
481 if (cmd == RTM ADD && error -- 0 && (rt = nrt)) { 
482 rt-»rt, refcnt--; 
483 if (rt-»rt ifa !- ifa) ( 
484 printf("rtinit: wrong ifa (%x) was ($x)WMn", ifa, 
485 rt-»rt ifa); 
486 if (rt-»rt ifa-»ifa rtrequest) 
487 rt-»rt ifa-»ifa rtrequest(RTM DELETE, rt, SA(0)); 
488 IFAFREE(rt-»rt ifa); 
489 rt-»rt ifa - ifa; 
490 rt-»rt ifp - ifa-»ifa ifp; 
491 ifa-»ifa, refcnt++; 
492 if (ifa-»ifa rtrequest) 
493 ifa-»ifa rtrequest(RTM ADD, rt, SA(0)); 
494 ) 
495 rt newaddrmsg(cmd, ifa, error, nrt); 
496 } 
497 return (error); 
498 ] 

route.c 


图 19-13 tint 国 数 : 后 半 部 分 
5. 删除 成 功 时 产生 一 个 选 路 消息 
474-480 ”如 果 删 除了 一 个 路 由 ， 并 且 rtrequest 返 回 0 和 被 删除 的 rtentry 结 构 的 指针 
(nrt 中 )， 就 用 rt_newaddrmsg 产 生 一 个 选 路 插口 消息 。 如 果 引 用 计数 小 于 等 于 0， 则 递增 
该 引用 计数 ， 并 用 rtfree 释 放 该 路 由 。 
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6. 成 功 添加 
481-482 ”如果 添 加 了 一 个 路 由 ， 并 且 rtrequest 返 回 了 0 和 被 添加 的 rtentry 结 构 的 指针 
(nrt)， 就 递减 其 引用 计数 (因为 rtrequest 递 增 了 该 引用 计数 )。 

7. 不 正确 的 接口 
483-494 ”如果 新 路 由 表 项 中 接口 的 1faddr 指 针 不 等 于 调用 参数 ， 则 表明 有 差错 产生 。 利 
用 rtrequest， 通 过 调用 ifa_ifwithroute 来 测定 新 路 由 中 的 ifa 指 针 (rtrequest 函 数 
如 图 19-9 所 示 )。 产 生 这 个 差错 后 ， 做 如 下 步 又 : 向 控制 台 输 出 一 条 出 错 消息 ; 如 果 定 义 了 
fa_rtredquest 国 数 ， 就 以 RTM_DELETE 为 参数 调用 它 ; 释放 ifaddr 结 构 ; 设置 rt_ifa 
指针 为 调用 者 指定 的 值 ; 递增 接口 的 引用 计数 ; 如 果 定 勾 了 ifa_rtrequest 困 数 ， 就 以 
RTM_ADD 为 参数 调用 它 。 

8. 产生 选 路 消息 
495 用 rt_newaddrmsg 为 RTM_ADD 命 令 产 生 一 个 选 路 插口 消息 。 


19.7 rtredirecttN 


当 收 到 一 -个 ICMP 重 定向 后 ，icmp_input 调 用 rtredirect 及 pfctlinput( 图 11-27)。 
后 一 个 函数 又 调用 uap_ctlinput 和 tcp_ctlinput， 这 两 个 国 数 遍历 所 有 的 UDP 和 TCP 协 
议 控制 块 (PCB)。 如 果 PCB 连 接 到 一 个 外 部 地 址 ， 而 到 该 外 部 地 址 的 方向 已 经 被 改变 ， 并 且 该 
PCB 持 有 到 那个 外 部 地 址 的 路 由 ， 则 调用 rtfree 释 放 该 路 由 。 下 一 次 使 用 这 些 控制 块 发 送 到 
该 外 部 地 址 的 IP 数 据 报时 ， 就 会 调用 rtal1loc， 并 在 路 由 表 中 查找 该 目的 地 址 ， 很 可 能 会 找 
到 一 条 新 (改变 过 方向 的 ) 路 由 。 

rtredirect 函 数 的 作用 是 验证 重 定向 中 的 信息 ， 并 立即 更 新 路 由 表 ， 产 生 选 路 插口 消 

息 。 图 19-14 给 出 了 rtredirect 函 数 的 前 半 部 分 。 
147-157 函数 的 参数 包括 : dst， 导 致 重 定 向 的 数据 报 的 目的 IP 地 址 (图 8-18 中 的 HD); 
gateway， 路 由 器 的 IP 地 址 ， 用 作 该 目的 的 新 网 关 字段 (图 8-18 中 的 R2); netmask， 空 指 
针 : flags， 设 置 了 RTF_GATEWAY 标 志和 RTF_HOST 标 志 ; src， 发 送 重 定向 的 路 由 器 的 IP 
地 址 (图 8-18 中 的 R1);，rtp， 空 指针 。 需 要 指出 的 是 ，i cmp_input 调 用 本 函数 时 ， 参 数 
netmask 和 rtp 是 空 指针 ， 但 是 其 他 协议 调用 本 函数 时 ， 这 两 个 参数 未 必 为 空 指针 。 

1. 新 路 由 必须 直接 相连 
158-162 新 的 网 关 必 须 是 直接 相连 的 ， 否 则 该 重 定向 无 效 。 

2. 查找 目的 地 址 的 路 由 表 项 并 验证 重 定向 
163-177 调用 rtallocil 在 路 由 表 中 查找 到 目的 地 址 的 路 由 。 验 证 重 定向 时 ， 下 列 条 件 必 
须 为 真 ， 否 则 该 重 定向 无 效 ， 并 且 函 数 返 回 一 个 差错 。 要 注意 的 一 点 是 ，icmp_input 会 忽 
略 从 ztredirect 返 回 的 任何 差错 。ICMP 也 会 忽略 它 ， 即 不 会 为 一 个 无 效 的 重 定向 而 产生 一 
个 差错 信息 。 

。 必 须 未 设置 RTF_DONE 标 志 ; 

。rtalloc 必 须 已 找到 一 个 到 dst 的 路 由 表 项 ; 

。 发 送 重 定向 的 路 由 器 的 地 址 (src) 必 须 等 于 当前 为 目的 地 址 设置 的 rt_gateway; 

。 新 网 关 的 接口 (由 ifa_ifwithnet 返 回 的 fa 结构) 必须 等 于 当前 为 目的 地 址 设置 的 接 

口 (rt_ifa)， 也 就 是 说 ， 新 网 关 必 须 和 当前 网 关 在 同一 个 网 络 上 ; 并 且 
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“新 网 关 不 能 把 到 这 个 主机 的 路 由 改变 为 到 它 自 己 ， 也 就 是 说 ， 不 能 存在 与 gateway 相 
等 的 带 有 单 播 地 址 或 广播 地 址 的 连接 着 的 接口 。 





147 int route.c 
148 rtredirect(dst, gateway, netmask, flags, src, rtp) 
149 struct sockaddr *dst, *gateway, *netmask, *src; 
150 int flags; 
151 struct rtentry **rtp; 
152 ( 
153 struct rtentry *rt; 
154 int error - 0; 
155 Short  *stat = 0; 
156 struct rt addrinfo info; 
157 Struct ifaddr *ifa; 
158 /* verify the gateway is directly reachable */ 
159 if ((ifa = ifa ifwithnet (gateway)) -- 0) ( 
160 error - ENETUNREACH; 
161 goto out; 
162 ) 
163 rt - rtallocl(dst, 0); 
164 /* 
165 * If the redirect isn't from our current router for this dst, 
166 * it's either old or wrong. If it redirects us to ourselves, 
167 * we have a routing ioop, perhaps as a result of an interface 
168 * going down recently. 
169 */ 
170 #đefine equal (al, a2) (bcmp((caddr t)(al1), (caddr t)(a2), (al)-»sa len) == 0) 
171 if (!(flags & RTF DONE) && rt && ` 
172 (equal (src, rt-»rt gateway) || rt->rt_ifa !- ifa)) 
173 error - EINVAL; 
174 else if (ifa, ifwithaddr(gateway)) 
175 error - EHOSTUNREACH; 
176 if (error) 
177 goto done; 
178 /* 
179 * Create a new entry if we just got back a wildcard entry 
180 * or if the lookup failed. This is necessary for hosts 
181 * which use routing redirects generated by smart gateways 
182 * to dynamically build the routing tables. 
183 */ 
184 if ((rt == 0) || (rt, mask(rt) && rt mask(rt)-»sa len < 2)) 
185 goto create; 
route.c 


图 19-14 rtredirectERA&: 验证 收 到 的 重 定向 


3. 必须 创建 一 个 新 路 由 
178-185 如 果 到 达 目 的 地 址 的 路 由 没有 找到 ， 或 找到 的 路 由 表 项 是 默认 路 由 ， 则 为 该 目的 
地 址 创建 一 个 新 的 路 由 。 如 程序 注释 所 述 ， 对 于 可 访问 多 个 路 由 器 的 主机 来 说 ， 当 默认 路 由 
器 出 错时 ， 它 可 以 利用 这 种 机 制 来 获悉 正确 的 路 由 器 。 判 断 是 否 为 默认 路 由 的 测试 方法 是 查 
着 该 路 由 表 项 是 否 具有 相关 的 掩 码 以 及 掩 码 的 长 度 字段 是 否 小 于 2， 因 为 默认 路 由 的 掩 码 是 
rn_zeros( 图 18-35)。 

图 19-15 给 出 了 rtredirect 国 数 的 后 半 部 分 。 

4. 创建 新 的 主机 路 由 
186-195 ”如 果 到 达 目 的 地 址 的 当前 路 由 是 一 个 网 络 路 由 ， 并 且 重 定向 是 主机 重 定向 而 不 是 
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网 络 重 定向 ， 那 么 就 为 该 目的 地 址 建立 一 个 主机 路 由 ， 而 不 必 去 管 现存 的 网 络 路 由 。 我 们 要 
提示 的 是 ，flags 参 数 总 是 指明 RTF_HOST 标 志 ， 因 为 NeU3 ICMP 把 所 有 收 到 的 重 定 回 部 看 








成 主机 重 定向 。 
route.c 
186 /* 
187 * Don't listen to the redirect if it's 
188 * for a route to an interface. 
189 */ 
190 if (rt-»rt flags & RTF, GATEWAY) ( 
191 if (((rt-»rt flags & RTF.HOST) == 0) && (flags & RTF.HOST)) (人 
192 /* 
193 * Changing from route to net -» route to host. 
194 * Create new route, rather than smashing route to net. 
195 */ 
196 create: . 
197 flags |= RTF GATEWAY | RTF, DYNAMIC; 
198 error - rtrequest((int) RTM ADD, dst, gateway, 
199 netmask, flags, 
200 (struct rtentry **) 0); 
201 Stat - &rtstat.rts, dynamic; 
202 ) else ( 
203 /* 
204 * Smash the current notion of the gateway to 
205 * this destination. Should check about netmask!!! 
206 */ 
207 rt-»rt flags |- RTF MODIFIED; 
208 flags |= RTF. MODIFIED; 
209 stat - &rtstat.rts newgateway; 
210 rt setgate(rt, rt key(rt), gateway); 
211 } 
212 ) else 
213 error - EHOSTUNREACH; 
214 done: 
215 if (rt) ( 
216 if (rtp && lerror) 
217 *rtp - rt; 
218 else 
219 rtfree(rt); 
220 } 
221 out: 
222 if (error) 
223 rtstat.rts, badredirect«-c; 
224 else if (stat !- NULL) 
225 (*stat)++; 
226 bzero((caddr t) & info, sizeof(info)); 
227 info.rti, info[RTAX DST] = dst; 
228 info.rti info[RTAX GATEWAY] - gateway; 
229 info.rti info[RTAX NETMASK] - netmask; 
230 info.rti info[RTAX AUTHOR] = src; 
231 rt missmsg(RTM REDIRECT, &info, flags, error); 
232 ) 
route.c 
图 19-15 rtrequuest KH% 后 半 部 分 
5. 创建 路 由 


196-201 rtrequest 创 建 一 个 新 路 出 ， 并 将 标志 RTF_GATEWAY 和 RTF_DYNAMIC 稼 位 。 
参数 netmask 是 一 个 空 指针 ， 这 是 因为 新 路 由 是 一 个 主机 路 由 ， 它 的 掩 码 是 隐 含 的 全 1 比特 。 
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stat 指 向 一 个 计数 器 ， 它 在 后 面 的 程序 里 递增 。 

6. 改变 现存 的 主机 路 由 
202-211 当 到 达 目 的 地 址 的 当前 路 由 已 经 是 一 个 主机 路 由 时 ， 才 执行 这 段 代 码 。 此 时 ， 不 需 
要 创建 新 的 表 项 ， 但 需要 修改 现存 的 表 项 : 设置 RTF_MODIFIED 标 志 ， 并 调用 rt_setgate 来 
修改 路 由 表 项 的 rt_gateway 字 段 ， 使 其 指向 新 的 网 关 地 址 。 

7. 如 果 目 的 地 址 直接 相连 ， 则 忽略 
212-213 如 果 到 达 目 的 地 址 的 当前 路 由 是 一 个 直接 路 由 ( 设 有 设置 RTF_GATEWAY 标 志 )， 那 
么 该 重 定向 针对 的 是 一 个 已 直接 连接 的 目的 地 址 。 此 时 ， 函 数 返 回 EHOSTUNREACH，。 

8. 返回 指针 并 递增 统计 值 
214-225 如 果 找 到 了 路 由 表 项 ， 那 么 该 表 项 被 返回 (如 果 rtp 非 空 且 没有 出 错 ) 或 者 用 
rtfree 释 放 它 。 相 关 的 统计 值 被 递增 。 

9. 产生 选 路 消息 
226-232 rt_addrinfo 结 构 清 零 ， 并 由 rt_missmsg 产 生 一 个 选 路 插口 消息 。 
raw_input 把 该 消息 发 送 到 所 有 对 重 定向 感 兴 趣 的 进程 。 


19.8 选 路 消息 的 结构 


选 路 消息 由 一 个 定 长 的 首部 和 至 多 8 个 播 口 地 址 结构 组 成 。 该 定 长 首部 是 下 列 三 种 结构 中 
的 一 个 : 

*rt msghdr 

*if msghdr 

"ifa msghdr 

图 18-11 给 出 了 产生 不 同 消 息 的 函数 的 概观 图 ， 图 18-9 给 出 了 每 种 消息 类 型 所 使 用 的 结构 。 
选 路 消息 三 种 首部 结构 的 前 三 个 成 员 的 数据 类 型 及 其 含义 是 相同 的 ， 分 别 为 : 消息 的 长 度 、 
版 本 和 类 型 。 这 样 ， 消 息 接 受 者 就 可 以 对 消息 进行 解码 了 。 而且 ， 每 种 结构 都 各 有 一 个 成 员 
来 编码 首部 之 后 8 个 可 能 的 播 口 地 址 结构 : rtm_addrs、ifm_addrs 和 ifam_addrs 成 员 ， 
它们 都 是 一 个 比特 掩 码 。 

图 19-16 给 出 了 最 常用 的 结构 ， 即 *t_msghdr。RTM_IFINEO 消 息 使 用 了 图 19-17 中 的 
if_msgndr 结 构 。RTM_NEWADDR 和 RTM_DELADDR 消 息 使 用 图 19-18 中 的 1fEa_msghdr 结 构 。 


route.h 
139 struct rt msghdr ( 


140 u short rtm msglen; /* to skip over non-understood messages */ 
141 u char rtm version; /* future binary compatibility */ 

142 u char rtm type; /* message type */ 

143 u. short rtm index; /* index for associated ifp */ 

144 int rtm flags; /* flags, incl. kern & message, e.g. DONE */ 
145 int rtm addrs; /* bitmask identifying sockaddrs in msg */ 
146 pid t rtm pid; /* identify sender */ 

147 int rtm seq; /* for sender to identify action */ 

148 int rtm errno; /* why failed */ 

149 int rtm use; /* from rtentry */ 

150 u long rtm inits; /* which metrics we are initializing */ 

151 struct rt metrics rtm rmx;  /* metrics themselves */ 

152 ); route.h 


图 19-16 rt_msghar 结 构 
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- if.h 
235 struct if msghdr { 
236 u.Short ifm msglen; /* to skip over non-understood messages */ 
237 u char ifm version; /* future binary compatability */ 
238 u char ifm type; /* message type */ 
239 int ifm addrs; /* like rtm addrs */ 
240 int ifm flags; /* value of if flags */ 
241 u short ifm index; /* index for associated ifp */ 
242 Struct if data ifm data; /* statistics and other data about if */ 
243 ): i . 
if.h 
图 19-17 if_msghdr 结 构 
- ifh 
248 struct ifa msghdr { 
249 u.short ifam msglen; /* to Skip over non-understood messages */ 
250 u char ifam version; /* future binary compatability */ 
251 u_char ifam type; /* message type */ 
252 int ifam addrs; /* like rtm addrs */ 
253 int ifam flags; /* value of ifa flags */ 
254 u short ifam index; /* index for associated ifp */ 
255 int ifam metric; /* value of ifa metric */ 
256 ); - 
if.h 


图 19-18 ifa_msghdr 结 构 


注意 ， 这 三 种 不 同 结构 的 前 三 个 成 员 具 有 相同 的 数据 结构 和 含义 。 
三 个 变量 rtm_addrs、ifm_addrs 和 ifam_addrs 都 是 比特 掩 码 ， 它 们 定义 了 首部 之 
后 的 揪 口 地 址 结构 。 图 19-19 给 出 了 比特 掩 码 用 到 的 一 些 常量 。 


RTA DST RTAX DST 目的 插口 地 址 结构 
RTA_GATEWAY RTAX_GATEWAY 网 关 插 口 地 址 结构 
RTA_NETMASK RTAX_NETMASK netmask 网 络 掩 码 插口 地 址 结构 


RTA_GENMASK RTAX GENMASK genmask 克隆 掩 码 插口 地 址 结构 
RTA_IFP RTAX_IFP ifpaddr 接口 名 称 插口 地 址 结构 
RTA_IFA RTAX_IFA ifaaddr 接口 地 址 插口 地 址 结构 

RTA AUTHOR RTAX AUTHOR 重 定向 产生 者 的 插口 地 址 结构 
RTA_BRD RTAX_BRD brdaddr 广播 或 点 到 点 的 目的 地 址 





图 19-19 用 来 引用 rti_info 数 组 成 员 的 常量 


比特 掩 码 的 值 可 以 用 常数 1 左 移 数 组 下 标 指定 的 位 数 而 得 到 。 例 如 ，0x20(RTA_IFA) 是 1 
左 移 五 位 (RTAX_IFA)。 我 们 会 在 代码 中 看 到 这 个 过 程 。 

插口 地 址 结构 总 是 按照 数组 下 标 递增 的 次 序 ， 一 个 接 一 个 地 出 现 的 。 例 如 ， 如 果 掩 码 是 
0x87， 则 第 一 个 插口 地 址 结构 的 内 容 为 目的 地 址 ， 接 着 是 网 关 地 址 ， 网 络 掩 码 ， 最 后 是 广播 
地 址 。 

内 核 用 图 19-19 中 的 数组 下 标 来 引用 rt_aqddrinfo 结 构 ， 如 图 19-20 所 示 。 该 结构 共有 与 
我 们 所 述 相 同 的 比特 掩 码 ， 以 表示 哪些 地 址 存在 。 它 的 另 一 个 成 员 指向 那些 插口 地 址 结构 。 
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199 struct rt addrinfo ( route. 
200 int rti, addrs; /* bitmask, same as rtm addrs */ 
201 Struct sockaddr *rti info[RTAX MAX]; ] 
202 }; 
route.h 


图 19-20 rt addrinfof&4g: 表示 哪些 地 址 存在 的 掩 码 和 指向 这 些 地 址 的 指针 


例如 ， 如 果 rti_addrs 成 员 中 设置 7 了 RTA_GATEWAY 比 特 ， 则 rti_info 
[RTA GATEWAY] 成 员 就 是 含 网 关 地 址 的 插口 地 址 结构 的 指针 。 对 于 Internet 协 议 ， 该 插口 
地 址 结构 就 是 含 网 关 的 IP 地 址 的 sockaddr_in 结 构 。 

图 19-19 中 的 第 五 栏 给 出 了 文件 rtsock.c 中 rti_info 数 组 成 员 相 应 的 名 称 。 它 们 的 定 
义 形式 如 下 : 

#define dst info.rti info[RTAX DST] 

在 本 章 的 很 多 源 文件 中 我 们 都 将 遇 到 这 些 名 称 。 元 素 RTAX_AUTHOR 没 有 命名 ， 因 为 进程 
不 会 向 内 核 传递 该 元 素 。 

我 们 已 经 有 两 次 遇 到 过 rt_adqdrinfo 结 构 : 在 国 数 ztallocl( 图 19-2) 和 rtredqirect 
中 (图 19-14)。 图 19-21 给 出 了 rtallocl 在 路 由 表 查 找 失 败 后 调用 rt_mi ssmsg 时 创建 的 该 结 
构 的 格式 。 


rt addrinfo(t) 
rti addrs 






0 BSockaddr iní() 


没有 找到 人 P 地 址 








图 19-21 rtalloci 传 递 给 rt_missmsg 的 rt_aqdqdrinfo 结 构 


所 有 未 使 用 的 指针 都 是 空 指针 ， 因 为 该 结构 在 使 用 前 被 设置 成 0。 还 要 指出 的 是 ， 
rti_addrs 成 员 没 有 被 初始 化 成 相应 的 比特 掩 码 ， 因 为 在 内 核 使 用 该 结构 时 ，rti_info 数 
组 中 的 指针 为 空 就 代表 不 存在 该 插口 地 址 结构 。 仅 在 进程 和 内 核 之 间 传 递 的 消息 里 该 掩 码 才 
是 必 不 可 少 的 。 

图 19-22 给 出 了 rtredirect 调 用 rt_missmsg 时 创建 的 该 结构 的 格式 。 


rt_addrinfo{} 


[rti info[RTAX NETMASK]| NULL 










0 Sockaddr in() 


导 敏 路 由 改变 的 目标 下地 址 


BOCkaddr in() 
NULL GEMMAE 一 
NULL 


rti, info[RTAX IFA] NULL Bockaddr in() 


EROR hoch GTP 


图 19-22 rtredirect 传 递 给 rt_missmsg 的 rt_addrinfo 结 构 

























NULL 
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下 一 节 中 将 介绍 该 结构 是 如 何 被 放置 在 发 送 到 其 他 进程 的 消息 里 的 。 
图 19-23 给 出 了 route_cb 结 构 ， 我 们 会 在 下 一 节 中 遇 到 。 该 结构 由 四 个 计数 器 组 成 ， 前 
三 个 分 别针 对 IP、XNS 和 OSI 协 议 ， 最 后 一 个 为 “任意 ”计数 器 。 每 个 计数 器 分 别 记录 相应 的 


域 中 当前 存在 的 选 路 插口 的 数目 。 
203-208 ”内核 跟踪 选 路 插口 监听 器 的 数目 。 这 样 ， 当 不 存在 等 待 消息 的 进程 时 ， 内 核 就 可 
以 避免 创建 选 路 消息 以 及 调用 raw_input 发 送 该 消息 。 

203 struct route cb { route.h 

204 int ip_count; /* IP */ 

205 int ns, count; /* XNS */ 

206 int iso count; /* ISO */ 

207 int any, count; /* sum of above three counters */ 

208 ); 

route.h 


| 图 19-23 route cbi: 选 路 插口 监听 器 的 计数 器 


19.9 rt _ missmsg 函 数 


如 图 19-24 所 示 ，rt_missmsg 函 数 使 用 了 图 19-21 和 图 19-22 中 的 结构 ， 并 调用 rt_msgl 
在 mbuf 链 中 为 进程 创建 了 相应 的 变 长 消息 ， 之 后 调用 raw_input 将 该 mbuf 链 传递 给 所 有 相 





关 的 选 路 插口 。 
- rtsock.c 
516 void 
517 rt missmsg(type, rtinfo, flags, error) 
518 int type, flags, error; 
519 struct rt addrinfo *rtinfo; 
520 ( 
521 Struct rt msghdr *rtm; 
522 struct mbuf *m; 
523 struct sockaddr *sa = rtinfo-»rti info[RTAX DST]; 
524 if (route cb.any count == 0) 
525 return; 
526 m - rt msgl(type, rtinfo); 
527 if (m == 0) 
528 return; 
529 rtm = mtod(m, struct rt, msghdr *); 
530 rtm-»rtm flags = RTF, DONE | flags; 
531 rtm-»rtm errno = error; 
532 rtm-»rtm addrs - rtinfo-»rti, addrs; 
533 route proto.sp protocol = sa ? sa-»sa family : 0; 
534 raw_input (m, &route proto, &route src, kroute dst); 
535 ) 
rtsock.c 


图 19-24 rt_missmsg 国 数 


516-525 如 果 没 有 任何 选 路 播 口 监听 器 ， 则 函数 立即 退出 。 
1. 在 mbuf 链 中 创建 消息 


526-528 


rt_msg1(19.12 节 ) 在 mbuf 链 中 创建 相应 的 消息 ， 并 返回 该 链 的 指针 。 利 用 图 19- 


22 中 的 rt _addrinfo 结 构 ， 图 19-25 给 出 了 所 得 到 的 mbuf 链 的 一 个 例子 。 这 些 信息 之 所 以 要 
放 在 一 个 mbuf 链 中 ， 是 因为 raw_input 要 调用 sbappendadgr 把 该 mbuf 链 添加 到 插口 接收 
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缓存 的 尾部 。 










m,nextpkt 













m pkthdr.len 
m pkthdr.rcvif 






sockaddr in() 

(后 一 半 ，8 字 节 ) 
sockaddr int) 
(16 字 节 ) 


NULL 






(未 使 用 ) 
(84 字 节 ) 







SOckaddr int) 
(16 字 节 ) 







sockaddr_ in() 
(前 -一半 ，8 字 节 ) 


. l 
图 19-25 由 rt_msgl 创 建 的 对 应 于 图 19-22 的 mbuf 链 


2. 完成 消息 的 创建 
529-532 成 员 rtm_fiags 和 rtm_errno 被 设置 成 调用 者 传递 的 值 。 成 员 rtm_addrs 的 值 
是 由 rti_addrs 复 制 而 得 到 的 。 在 图 19-21 和 图 19-22 中 ， 我 们 给 出 的 rti_addrs 值 为 0， 因 
此 ，rt_msgl 依 据 rti_info 数 组 中 的 指针 是 否 为 空 ， 来 计算 并 保存 相应 的 比特 掩 码 。 

3. 设置 消息 的 协议 ， 调 用 raw_input 
533-534 raw_input 的 后 三 个 参数 指定 了 选 路 消息 的 协议 、 源 和 目的 。 这 三 个 结构 被 初始 
化 成 : 

struct sockaddr route dst = PF ROUTE, }; 


(2, 
struct sockaddr route src = { 2, PF.ROUTE, }; 
struct sockproto route proto = ( PF ROUTE }; 


内 核 不 会 修改 前 两 个 结构 。 第 三 个 结构 sockproto， 我 们 第 一 次 遇 到 。 图 19-26 给 出 了 


socket.h 
128 struct sockproto ( 
129 u short sp family; /* address family */ 
130 u.short sp protocol; /* protocol */ 
131 ); 
M ——————————————————————— — — — — socket. 


图 19-26 sockproto 结 构 


该 结构 的 协议 族 成 员 一 直 保 持 了 它 的 初始 值 PF_ROUTE， 但 其 协议 成 员 的 值 在 每 一 次 调 
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用 raw_input 时 都 要 进行 设置 。 当 进程 调用 socket 创 建 选 路 插口 时 ， 第 三 个 参数 定义 了 该 
进程 所 感 兴 趣 的 协议 。raw_input 的 调用 者 再 把 route_proto 结 构 的 sp_protocol 成 员 
设置 成 选 路 消息 的 协议 。 在 rt_missmsg 这 种 情况 下 ， 该 成 员 被 设置 成 目的 插口 地 址 结构 的 
sa_family( 如 果 调 用 者 指定 了 该 值 )， 在 图 19-21 和 图 19-22 中 ， 其 值 为 AF_INET.。 


19.10 rt_ifmsg 函 数 


在 图 4-30 中 我 们 可 以 看 出 ，if_up 和 if_dowm 都 调用 了 图 19-27 中 的 rt_ifmsg。 在 接口 
连接 或 断 开 了 时， 该 冰 数 被 用 来 产生 一 个 选 路 插口 消息 。 


540 void rtsock.c 
541 rt ifmsg(ifp) 
542 struct ifnet *ifp; 
543 ( 
544 , struct if msghdr *ifm; 
545 struct mbuf *m; 
546 struct rt addrinfo info; 
547 if (route cb.any count == O0) 
548 return; 
549 bzero((caddr.t) & info, sizeof(info)); 
550 m = rt msgl(RTM IFINFO, &info); 
551 if (m == 0) 
552 return; 
553 ifm = mtod(m, struct if msghdr *); 
554 ifm-»ifm index = ifp-»if index; 
555 ifm-»ifm flags = ifp-»if flags; 
556 ifm-»ifm data = ifp-»if data; /* structure assignment */ 
557 ifm-»ifm addrs = 0; 
558 route proto.sp protocol = 0; 
559 raw input(m, &route proto, &route src, &route dst); 
560 } 
rtsock.c 


图 19-27 rt ifmsactR 


547-548 如 果 没 有 选 路 插口 监听 器 ， 函 数 立即 退出 。 

1. 在 mbuf 链 中 创建 消息 
549-552 rt_addrinfo 结 构 被 设置 成 0。rt_msgl 在 一 个 mbuf 链 中 创建 相应 的 消息 。 需 要 
注意 的 是 ，rt_adarinfo 结 构 中 的 所 有 指针 都 为 空 ， 选 路 消息 仅 由 定 长 的 if_msghdr 结 构 
组 成 ， 而 不 含 任何 地 址 。 

2. 完成 消息 的 创建 
553-557 ”把 接口 的 索引 、 标 志和 if._data 结 构 复制 到 mbuf 中 的 报 文 里 。 把 ifm_adars 比 
特 掩 码 设 置 成 0。 

3. 设置 消息 的 协议 ， 调 用 raw_input 
558-559 ”因为 该 消息 可 应 用 于 所 有 的 协议 ， 所 以 其 协议 被 设置 成 0。 并 且 该 消息 是 关于 某 接 
口 的 ， 而 不 是 针对 特定 的 目的 地 。raw_input 把 该 消息 传递 给 相应 的 监听 器 。 


504 TCP/IP $A #2: XX 


19.11 rt newaddrmsgtfX 


从 图 19-13 中 可 以 看 到 ， 在 接口 上 添加 或 从 中 删除 一 个 地 址 时 ，rtinit 要 以 RTM_ADD 或 
RTM_DELETE 为 参数 调用 rt_newaddrmsg。 图 19-28 给 出 了 rt_newadarmsg 图 数 的 前 半 部 


分 。 


569 void rtsock.c 
570 rt newaddrmsg(cmd, ifa, error, rt) 

571 int cmd, error; 

572 struct ifaddr *ifa; 

573 struct rtentry *rt; 

574 ( 

575 Struct rt addrinfo info; 

576 struct sockaddr *sa; 

577 int pass; 

578 struct mbuf *m; 

579 struct ifnet *ifp = ifa-»ifa ifp; 

580 if (route, cb.any count == Q0) 

581 return; 

582 for (pass = 1; pass < 3; pass++) ( 

583 bzero((caddr t) & info, sizeof(info)); 

584 if ((cmd == RTM ADD && pass == 1) || 

585 (cmd == RTM DELETE && pass -- 2)) ( 

586 struct ifa msghdr *ifam; 

587 int ncmd = cmd == RTM,ADD ? RTM NEWADDR : RTM DELADDR; 
588 ifaaddr = sa = ifa-»ifa, addr; 

589 ifpaddr = ifp-»if addrlist-»ifa addr; 
590 netmask - ifa-»ifa netmask; 

591 bprdaddr = ifa-»ifa dstaddr; 

592 if ((m = rt msgi(ncmd, &info)) == NULL) 
593 continue; 

594 ifam - mtod(m, struct ifa msghdr *); 
595 ifam-»ifam index = ifp-»if index; 

596 ifam-»ifam metric = ifa-»ifa metric; 
597 ifam-»ifam flags = ifa-»ifa flags; 

598 ifam-»ifam addrs = info.rti, addrs; 

597 } rtsock.c 





图 19-28 rt_newaddrmsg 函 数 的 前 半 部 分 创建 ifa_msghar 


580-581 如 果 没有 选 路 插口 监听 器 ， 函 数 立即 退出 。 

1. 产生 两 个 选 路 消息 
562 ”本 函数 要 产生 两 个 选 路 报 文 ， 一 个 用 于 提供 有 关 接 口 的 信息 ， 另 一 个 提供 有 关 地 址 的 信 
息 。 因 此 ，for 循 环 执行 两 次 ， 每 次 产生 一 个 消息 。 如 果 命 令 是 RTM_ADD， 则 第 一 个 消息 的 
类 型 是 RTM_NEWADDR， 第 二 个 消息 的 类 型 是 RTM_ADD，; 如 果 命 令 是 RTM_DELETE， 则 第 一 
个 消息 的 类 型 是 RTM_DELETE， 第 二 个 消息 的 类 型 是 RTM_DELRADDR。 RTM_NEWADDR 和 
RTM_DELADDR 消 息 的 首部 为 ifa_msghdr 结 构 ， 而 RTM_ADD 和 RTM_DELETE 消 息 的 首部 为 
rt_msghdr 结 构 。 
583 rt_adqarinfo 结 构 被 设置 为 0。 

2. 产生 至 多 含 四 个 地 址 的 消息 
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588-591 这 四 个 播 口 地 址 结构 包含 的 是 有 关 被 添加 或 删除 的 接口 地 址 的 信息 ， 它 们 的 指针 
存储 于 rti_info 数 组 中 。 其 中 ifaaddr、ifpaddr、netmask 和 brdaddr3 引 用 的 是 名 为 
info 的 rti_info 数 组 中 的 成 员 ， 如 图 19-19 所 示 。rt_msgl 在 mbuf 链 中 创建 了 相应 的 消息 。 
注意 ，sa 也 设置 成 指向 ifa_addr 结 构 的 指针 ， 我 们 将 在 函数 的 尾部 看 到 选 路 消息 的 协议 被 
设置 成 该 插口 地 址 结构 的 族 。 

把 ifa_msghdr 结 构 的 其 他 成 员 设 置 成 接口 的 索引 、 度 量 和 标志 。 其 比特 掩 码 由 
rt_msgl 设 置 。 

图 19-29 给 出 了 rt_newaddrmsg 的 后 半 部 分 。 该 部 分 用 于 创建 rt_msghdr 消 息 ， 该 消 
息 中 包含 了 有 关 被 添加 或 删除 的 路 由 表 项 的 信息 。 

3. 创建 消息 
600-609 rt_mask、rt_key 和 rt_gateway 这 三 个 地 址 结构 的 指针 存放 在 rti_info 数 
组 中 。sa 被 设置 成 目的 地 址 的 指针 ， 它 的 族 将 成 为 选 路 消息 的 协议 。rt_msgl 在 mbuf 链 中 创 
建 相应 的 消息 。 

设置 其 余 的 rt_msghar 结 构成 员 。 其 中 ， 比 特 掩 码 由 rt_msgl 设 置 。 

4. 设置 消息 的 协议 ,调用 raw_input 
616-619 设置 消息 的 协议 ， 并 由 raw_input 把 消息 发 送 给 相应 的 监听 器 。 国 数 在 完成 了 两 
次 循环 后 返回 。 


- ~ rtsock.c 
600 if ((cmd == RTM ADD && pass == 2) |I 
601 (cmd == RTM DELETE && pass == 1)) (f 
602 struct rt msghdr *rtm; 
603 if (rt == 0) 
604 continue; 
605 netmask - rt mask(rt); 
606 dst = sa = rt key(rt); 
607 gate - rt-»rt gateway; 
608 if ((m = rt, msgl(cmd, &info)) == NULL) 
609 continue; 
610 rtm = mtod(m, struct rt msghdr *); 
611 rtm-»rtm index = ifp-»if index; 
612 rtm-»rtm flags |= rt-»rt flags; 
613 rtm-»rtm errno = error; 
614 rtm-»rtm addrs = info.rti addrs; 
615 ) 
616 route proto.sp, protocol = sa ? sa-»sa family : 0; 
617 raw input(m, &route, proto, &route src, &route dst); 
618 ) 
619 ) 

rtsock.c 


图 19-29 rt newaddrmsgt SELBE ES: 创建 rt_msghdr 消 息 


19.12 rt msgl 


前 三 节 的 函数 都 调用 rt_msg1l 函 数 来 创建 一 个 相应 的 选 路 消息 。 图 19-25 还 给 出 了 一 个 
mbuf 链 ， 该 链 是 由 rt_msgl 按 照 图 19-22 中 的 rt_msghdar 和 Frt_adarinfo 结 构 创 建 的 。 岛 
19-30 给 出 了 本 函数 的 代码 。 


506 TCP/IP 详 解 4&2: 实现 
399 static struct mbuf * risock.c 
400 rt msgl (type, rtinfo) 
401 int type; 
402 struct rt addrinfo *rtinfo; 
403 ( 
404 Struct rt msghdr *rtm; 
405 struct mbuf *m; 
406 int i; 
407 struct sockaddr *sa; 
408 int len, dlen; 
409 m = m gethdr(M DONTWAIT, MT DATA); 
410 if (m == 0) 
411 return (m); 
412 switch (type) ( 
413 case RTM DELADDR: 
414 case RTM NEWADDR: 
415 len = sizeof(struct ifa msghdr); 
416 break; 
417 Case RTM IFINFO: 
418 len = sizeof(struct if msghdr); 
419 break; 
420 default: 
421 len = sizeof (struct rt msghdàr); 
422 ) 
423 if (len » MHLEN) 
424 panic("rt msgl"); 
425 m-»m pkthdr.len = m-»m len = len; 
426 m-»m, pkthdr.rcvif = 0; 
427 rtm - mtod(m, struct rt msghdr *); 
428 bzero((caddr t) rtm, len); 
429 for (i = 0; i < RTAX MAX; i++) ( 
430 if ((sa - rtinfo-»rti info[i)) -- NULL) 
431 continue; 
432 rtinfo-»rti addrs |- (1 << i); 
433 dlen = ROUNDUP(sa--»sa, len); 
434 m copyback(m, len, dlen, (caddr t) sa); 
435 len «- dlen; 
436 J 
437 if (m-»m pkthdr.len !- len) ( 
438 m freem(m); 
439 return (NULL); 
440 } 
441 rtm-»rtm msglen - len; 
442 rtm-»rtm version - RTM VERSION; 
443 rtm-»rtm type - type; 
444 return (m); 
445 } 
— rtsock.c 





图 19-30 rt_msgl 国 数 : 获取 并 初始 化 mbuf 


1. 得 到 mbuf 并 确定 消息 首部 的 长 度 
399-422 ”获得 一 个 含 分 组 首部 的 mbuf， 并 将 分 组 消息 定 长 部 分 的 长 度 存 入 len 中 。 图 18-9 
中 各 种 类 型 的 消息 里 ， 有 两 个 使 用 ifa_msghar 结 构 ， 有 一 个 使 用 if_msghdr 结 构 ， 其 余 的 
九 个 使 用 rt_msgndr 结 构 。 l 
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2. 验证 结构 是 否 适合 mbuf 
423-424 定 长 结构 的 大 小 必须 完全 适合 分 组 首部 mbuf 的 数据 部 分 ， 因 为 该 mbuf 指 针 将 被 
mtodq 转 换 成 一 个 结构 指针 ， 之 后 通过 指针 来 引用 该 结构 。 三 个 结构 中 最 大 的 为 if_msghdr， 
其 长 度 为 84， 小 于 MHLEN(100)。 

3. 初始 化 mbuf 分 组 首部 并 使 结构 清 堆 
425-428 初始 化 分 组 首部 的 两 个 字段 ， 并 将 mbuf 中 的 结构 设置 成 0。 

4. 将 插口 地 址 结构 复制 到 mbuf 链 中 
429-436 ”调用 者 传递 了 一 个 rt_addrinfo 结 构 的 指针 。 与 rti_info 中 所 有 非 空 指针 相 
对 应 的 插口 地 址 结构 都 被 mn_copyback 复 制 到 mbuf 里 。 将 数值 1 左 移 下 标 RTX_xxx 对 应 的 位 
数 就 可 以 得 到 相应 的 RTRA_xxx 比 特 掩 码 ( 图 19-19)。 将 每 个 比特 掩 码 用 逻辑 或 添加 到 
rti_addqrs 成 员 中 去 ， 调 用 者 在 函数 返回 时 可 将 它 保存 为 相应 的 报 文 结 构成 员 。ROUNDPUP 
宏 将 每 个 插口 地 址 结构 的 大 小 上 舍 和 成 下 一 个 4 的 倍数 个 字 节 。 

437-440 在 循环 结束 上 时， 如 果 mlbuf 分 组 首部 的 长 度 不 等 于 len， 则 表明 函数 m_copyback 
设 能 获得 所 需 的 mbuf 。 

5. 保存 长 度 、 版 本 和 类 型 | 
441-445 把 长 度 、 版 本 和 报 文 类 型 保存 到 报 文 结构 的 前 三 个 成 员 中 。 再 次 说 明 一 下 ， 因 为 
所 有 的 三 种 xxx._msghar 结 构 都 以 相同 的 成 员 开 始 ， 所 以 尽管 代码 中 的 指针 rtm 是 一 个 
rt_msghdr 结 构 的 指针 ， 但 它 可 以 处 理 所 有 这 三 种 情况 。 


19.13 rt_msg2 函 数 


rt_msg1 在 mbuf 链 中 创建 一 个 选 路 消息 ， 调 用 它 的 三 个 函数 接着 又 调用 raw_input， 
从 而 把 mbuf 结 构 附 加 到 一 个 或 多 个 插口 的 接收 缓存 中 去 。 与 rTt_msg1l 不 同 ，rt_msg2 在 存 
储 器 缓存 中 创建 选 路 消息 ， 而 不 是 在 mbuf 链 中 创建 。 并 且 rt_msg2 有 一 个 walkarg 结 构 的 
参数 ， 在 选 路 域 中 处 理 sysct1 系 统 调用 时 ， 有 两 个 函数 使 用 该 参数 调用 了 rt_msg2。 以 下 
是 两 种 调用 rt_msg2 的 情况 : 

1) route_output 调 用 它 处 理 RTM_GET 命 令 

2) sysctl_dumpentry 和 sysctl_if1list 调 用 它 处 理 sysct1li 系 统 调用 。 

在 给 出 rt_msg2 的 代码 之 前 , 图 19-31 给 出 了 在 第 2 种 情况 下 使 用 的 walkarg 结 构 的 定义 。 
我 们 在 过 到 它 的 各 成 员 时 再 一 一 介绍 。 


rtsock.c 
41 struct walkarg ( 
42 int Ww Op; /* NET RT xxx */ 
43 int w. arg; /* RTF xxx for FLAGS, if index for IFLIST */ 
44 int w given; /* size of process' buffer */ 
45 int w needed; /* Kbytes actually needed (at end) */ 
46 int w tmemsize; /* size of buffer pointed to by w tmem */ 
47 caddr t w where; /* ptr to process' buffer (maybe null) */ 
48 Ccaddr t w tmem; /* ptr to our malloc'ed buffer */ 
49 ); 

rtsock.c 


图 19-31 walkarg 结 构 : 选 路 域内 sysct1 系 统 调 用 中 使 用 
图 19-32 给 出 了 rt_msg2 函 数 的 前 半 部 分 ， 它 与 rt_msg1 的 前 半 部 分 类 似 。 
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446 static int rtsock.c 
447 rt msg2(type, rtinfo, Cp, W) 

448 int type; 

449 struct rt addrinfo *rtinfo; 

450 caddr t cp; 

451 struct walkarg *w; 

452 ( 

453 int i; 

454 int len, dlen, second time - 0; 

455 caddr. t cp0; 

456 rtinfo-»rti, addrs = 0; 

457 again: 

458 switch (type) ( 

459 case RTM, DELADDR: 

460 case RTM, NEWADDR : 

461 len = sizeof (struct ifa msghdr):; 

462 break; 

463 case RTM IFINFO: 

464 len = sizeof(struct if msghdr); 

465 break; 

466 default: 

467 len = sizeof (struct rt, msghár); 

468 ) 

469 if (cp0 = cp) 

470 cp *- len; 

471 for (i = 0; i < RTAX MAX; i++) ( 

472 struct sockaddr *sa; 

473 if ((sa = rtinfo-»rti, info[i]) == 0) 
474 continue; 

475 rtinfo-»rti addrs |- (1 «« i); 

476 dlen = ROUNDUP (sa-»sa, len); 

477 if (cp) ( 

478 bcopy((caddr t) sa, cp, (unsigned) dlen); 
479 cp += dlen; 

480 } 

481 len += dlen; 

482 } rtsock.c 





图 19-32 rt msg2d fe 复制 插口 地 址 结构 


446-455 本 函数 将 选 路 消息 保存 在 一 个 存储 器 缓存 中 ， 调 用 者 用 cp 参数 指定 该 缓存 的 起 始 
位 置 。 调 用 者 必须 保证 缓存 足够 长 ， 以 容纳 所 产生 的 选 路 消息 。 当 cp 参数 为 空 时 ，rt_msg2 
不 保存 任何 结果 而 是 处 理 输入 参数 ， 并 返回 保存 结果 所 需要 的 字 贡 总数。 这样 可 以 帮助 调用 
者 确定 缓存 的 大 小 。 我 们 可 以 看 到 route_output 就 利用 了 这 一 机 制 ， 它 调用 本 函数 两 次 : 
第 一 次 确定 缓存 的 大 小 ; 在 获得 了 大 小 无 误 的 缓存 后 ， 再 次 调用 本 函数 以 保存 结果 。 
route_output 调 用 本 函数 时 ， 最 后 一 个 参数 为 空 ， 但 如 果 是 作为 sysct1 系 统 调用 处 理 的 
一 部 分 被 调用 时 ， 该 参数 就 不 是 空 指针 了 。 

1. 确定 结构 的 大 小 
458-470 ， 定 长 消息 结构 的 大 小 是 根据 消息 类 型 来 确定 的 。 如 果 cp 指 针 非 空 ， 则 把 大 小 等 于 
定 长 消息 结构 长 度 的 偏 移 量 添加 到 cp 指针 上 去 。 

2. 复制 插口 地 址 结构 
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471-482 for 循环 查看 rti_info 数 组 的 每 个 元 素 。 遇 到 非 空 指针 时 ， 设 置 rti_addrs 比 
特 掩 码 中 的 相应 比特 ， 并 将 该 插口 地 址 结构 复制 到 cp 中 (如 果 cp 指 针 非 空 )， 并 修改 长 度 变量 。 
图 19-33 给 出 了 rt_msg2 函 数 的 后 半 部 分 。 其 代码 用 于 处 理 可 选 参 数 walkarg 结 构 。 


- rtsock.c 
483 if (cp == 0 && w !- NULL && !second time) ( 
484 struct walkarg *rw - w; 
485 rw-»w needed += len; 
486 if (rw-»w needed <= 0 && rw-»w where) ( 
487 if (rw-»w, tmemsize < len) ( 
488 if (rw-»w tmem) 
489 freeí(rw-»w tmem, M RTABLE); 
490 if (rw-»w tmem = (caddr. t) 
491 malloc(len, M,RTABLE, M, NOWAIT)) 
492 rw-»w tmemsize - len; 
493 } 
494 if (rw->w_tmem) { 
495 Cp = rw-»w tmem; 
496 Second time - 1; 
497 goto again; 
498 ) eise 
499 rw-»w where - 0; 
500 H 
501 ) 
502 if (cp) ( 
503 struct rt msghdr *rtm = (struct rt, msghdr *) cp0; 
504 rtm-»rtm version - RTM VERSION; 
505 rtm-»rtm type - type; 
506 rtm-»rtm msglen - len; 
507 } 
508 return (len); 
292 ) rtsock.c 


图 19-33 rt_msg2 A$: 处 理 可 选 参数 wal1karg 


483-484 ” 当 调 用 者 传递 了 一 个 非 空 的 valkarg 结 构 指针 且 函 数 第 一 次 执行 到 这 里 时 ， 该 if 
语句 的 判断 条 件 才 为 真 。 变 量 seconG_time 被 初始 化 成 0， 它 将 在 本 if 语 句 中 被 设置 成 1， 
然后 程序 往 回 跳 转 到 图 19-32 中 的 标号 again 处 。cp 为 空 指针 的 测试 是 不 必要 的 ， 因 为 当 w 指 
针 非 空 时 ，cp 指 针 一定 是 空 ， 反 之 亦 然 。 

3. 检查 是 否 要 保存 数据 
485-486 w_needed 将 增 大 ， 其 增 量 为 报 文 长 度 的 值 。 该 变量 的 初始 值 为 0 减 去 sysct1 国 
数 中 用 户 缓存 的 长 度 。 例 如 ， 如 果 该 缓存 为 500 比 特 ， 则 w_needed 的 初始 值 为 -500。 只 要 该 
变量 为 负 值 ， 则 表明 缓存 内 还 有 剩余 空间 。 在 调用 进程 中 ，w_where 是 指向 该 缓存 的 指针 。 
w_where 为 空 表明 调用 进程 不 想 要 函数 的 处 理 结 果 ， 而 仅 想 获得 systcl 处 理 结果 的 大 小 。 
因此 ， 当 w_where 为 空 时 ， rt_msg2 没 有 必要 将 数据 复制 给 进程 ， 也 就 是 返回 给 调用 者 。 同 
样 ，rt_msg2 也 没有 必要 为 保存 结构 而 申请 缓存 ， 也 不 需要 返回 到 标号 again 处 再 次 执行 ， 
因为 再 次 执行 是 为 了 把 结果 填 入 到 缓存 里 。 本 函数 的 处 理 实际 上 只 有 五 种 情况 ， 如 图 19-34 所 
D 

4.  — kB HAH S KA EHE m BO 
487-493 w_tmemsize 是 w_tmem 所 指向 的 缓存 的 长 度 。 它 被 sysctl_rtable 初 始 化 成 0。 
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因此 ， 对 于 给 定 的 sysct1 请 求 ， 在 第 一 次 调用 rt_msg2 时 ， 必 须 为 它 分 配 一 个 缓存 。 同 样 ， 
当 产生 的 结果 的 长 度 增加 时 ， 必 须 释 放 原 有 的 缓存 ， 并 重新 分 配 一 个 更 大 的 缓存 。 


ana Jo e pre e 
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图 19-34 rt_msg2 函 数 的 五 种 执行 情况 


5. 返回 再 执行 一 次 并 保存 结果 
494-499 如 果 w_tmemsize 非 空 ， 则 表明 该 缓存 已 经 存在 或 刚 被 分 配 。 设 置 cp 指 向 该 缓存 ， 
把 second_time 设 置 成 1， 跳 转 至 标号 again 处 。 因 为 secondq_time 的 值 为 1， 所 以 第 二 次 
执行 到 本 图 的 第 一 个 语句 时 ，iE£ 语 名 的 判断 不 再 为 真 。 如 果 w_tmem 为 空 ， 则 表明 调用 
malloc 失 败 ， 因 此 ， 把 进程 中 的 缓存 指针 设置 成 空 指 针 以 阻止 返回 任何 结果 。 

6. 保存 长 度 、 版 本 和 类 型 
502-509 如 果 cp 非 空 ， 则 保存 消息 首部 的 前 三 个 成 员 。 南 数 返回 报 文 的 长 度 。 


19.14 sysctl rtableifZA4 
























本 函数 处 理 选 路 插口 的 sysct1 系 统 调用 。 如 图 18-11 所 示 ，net._sysct1l 函 数 调用 了 该 
E. 

在 解释 其 源 代码 之 前 ， 图 19-35 给 出 了 该 系统 调用 关于 路 由 表 的 一 种 典型 的 用 法 。 这 个 例 
子 来 自 于 arp 程 序 。 


int mib[6]; 
size t needed; 
char *buf, *lim, *next; 


struct rt, msghdr  *rtm; 


mib[0} = CTL NET; 

mib[1] = PF.ROUTE; 

mib(2] = 0; 

mib[3] = AF INET; /* address family; can be 0 */ 
mib[4] = NET. RT FLAGS; /* operation */ 

mib(5] = RTF LLINFO; /* flags; can be 0 */ 


if (sysctl(mib, 6, NULL, &needed, NULL, 0) < 0) 
quit ("sysctl error, estimate"); 


if ( (buf = malloc(needed)) == NULL) 
quit("malloc"); 


if (sysctl(mib, 6, buf, &needed, NULL, 0) < 0) 
quit("sysctl error, retrieval"); 


lim = buf + needed; 
for (next - buf; next « lim; next «- rtm-»rtm msglen) ( 
rtm - (struct rt msghdr *)next; 
/* do whatever */ 





19-35 


£193 ZAXdEfexXs5x& SH 





mib 数 组 的 前 三 个 元 素 引 导 内 核 调 用 sysct1_rtable， 以 处 理 其 余 的 元 素 。 

mib[4] 用 于 指定 操作 的 类 型 ， 共 支持 3 种 操作 类 型 。 

1) NET RT. DUMP: 返回 mib[3] 指 定 的 地 址 族 所 对 应 的 路 由 表 。 如 果 地 址 族 为 0， 则 返 
回 所 有 的 路 由 表 。 

针对 每 一 个 路 由 表 项 ， 程 序 都 将 返回 一 个 RTM_GET 选 路 消息 。 每 个 消息 可 能 包含 两 个 、 
三 个 或 四 个 插口 地 址 结构 。 这 些 地 址 结构 由 指针 rt_key、rt_gateway、rt_netmask 和 
rt_genmask 所 指向 。 其 中 最 后 两 个 指针 可 能 为 空 。 

2) NET RT FLAGS: 与 前 一 个 命令 相同 ， 但 mib[5] 指定 了 一 个 RTF_xxx 标 志 ( 图 18-25)， 
程序 仅 返 回 那些 设置 了 该 标志 的 表 项 。 

3) NET RT IFLIST: 返回 所 有 已 配置 接口 的 信息 。 如 果 mib [5] 的 值 不 是 零 ， 则 程序 仅 
返回 if_inaex 为 相应 值 的 接 日 。 否 则 ， 返 回 所 有 ifnet 链 表 上 的 接口 。 

针对 每 个 接口 ， 将 返回 一 个 RTM_IFINFO 消 息 ， 该 消息 传递 了 有 关 接口 本 身 的 一 些 信息 。 
之 后 用 一 个 RTM_NEWADDR 消 息 传递 接口 的 if_addr1ist 上 的 每 个 1faddr 结 构 。 如 果 
mib[3] 的 值 为 非 0， 则 RTM_NEWADDR 消 息 仅 返 回 那 些 地 址 族 与 mib[3] 相 匹配 的 地 址 。 否 则 ， 
mib[3] 为 0， 将 返回 所 有 地 址 的 信息 。 

这 个 操作 是 为 了 替代 SIOCGIFCONF ioctl (图 4-26) 


与 该 系统 调用 有 关 的 一 个 问题 是 ， 该 系统 返回 信息 的 数量 是 可 变 的 ， 这 种 变化 取决 于 路 
由 表 表 项 的 数目 和 接口 的 数目 。 因 此 ， 第 一 次 调用 sysct1 所 指定 的 第 三 个 参数 通常 是 个 空 指 
针 ， 也 就 是 说 ， 不 需要 返回 任何 选 路 信息 ， 只 要 把 该 信息 所 占 的 比特 数目 返回 即 可 。 从 图 19- 
35 中 我 们 可 以 看 出 ， 进 程 第 一 次 调用 sysct1 之 后 调用 了 mal1loc， 接 着 再 调用 sysct1 来 获 
取信 息 。 第 二 次 调用 时 ， 通 过 第 四 个 参数 ，sysct1 又 返回 了 该 比特 数目 (该 数目 与 上 次 相 比 
可 能 会 有 变化 )。 通 过 该 数目 我 们 可 以 得 到 指针 Lim， 它 指向 的 位 置 位 于 返回 的 最 后 一 个 字 节 
之 后 。 进 程 接着 就 遍历 缓存 中 的 每 个 消息 ， 利 用 rtm_msglen 可 找到 下 一 个 消息 。 

图 19-36 给 出 了 不 同 的 Net /3 程序 访问 路 由 表 和 接口 列表 时 指定 的 这 六 个 mib 变 量 的 值 。 





PF_ROUTE 
0 
AF_INET 


RTF_LLINFO 0 0 


图 19-36 调用 sysct1 获 取 路 由 表 和 接口 列表 的 程序 举例 





前 三 个 程序 从 路 由 表 中 提取 路 由 表 项 ， 后 三 个 从 接口 列表 中 提取 数据 。route 程 序 仅 支 
持 Internet 选 路 协议 ， 所 以 它 指 定 mip[3] 的 值 为 AF_INET， 而 gated 还 支持 其 他 协议 ， 
所 以 它 对 应 的 mibf3] 的 值 为 0。 

图 19-37 画 出 了 三 个 sysct1_xxx 晴 数 的 结构 ， 在 后 面 的 几 节 中 会 逐个 予以 阐述 。 

图 19-38 给 出 了 sysct1_rtable 国 数 .. 

1. 验证 参数 
705-719 当 进 程 调用 sysct1 来 设置 一 个 路 由 表 中 不 支持 的 变量 时 ， 使 用 new 参 数 。 因 此 该 
参数 必须 是 一 个 空 指针 。 
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720-721 namelen 必 须 是 3， 因 为 系统 调用 处 理 到 这 儿 时 ，name 数 组 中 有 三 个 元 素 : 
name[0], ， 地 址 族 (进程 中 它 被 指定 为 mib[3]); name[1], fRíEQib[41); 以 及 name[21]， 


示 志 (mib [51)。 


Syscti 
系统 调用 





sysctl, rtable 








在 缓存 中 创建 路 由 报 
文 并 将 之 复制 给 进程 
图 19-37 支持 针对 选 路 插口 的 sysct1i1 系 统 调用 的 函数 
- rtsock.c 

705 int ， 
706 sysctl rtable(name, namelen, where, given, new, newlen) 
707 int *name; 
708 int namelen; 


709 caddr t where; 
710 size t *given; 
711 caddr.t *new; 

712 size t newlen; 


713 ( 

714 struct ràáàdix node head *rnh; 
715 int i, s, error - EINVAL; 
716 u Char af; 

717 struct walkarg w; 

718 if (new) 

719 return (EPERM); 

720 if (namelen !- 3) 

721 return (EINVAL); 

722 af - name[0]; 

723 Bzero(&w, sizeof(w)); 


图 19-38 sysct1_rtable 国 数 : 处 理 sysct1 系 统 调用 请 求 
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724 w.w where - where; 

725 w.W given = *given; 

726 w.w needed - 0 - w.w given; 

727 w.w op = name(1]; 

728 w.w arg - name[2]; 

729 S = splnet(); 

730 switch (w.w op) ( 

731 case NET RT DUMP: 

732 case NET RT FLAGS: 

733 for (i = 1; i <= AF MAX; i++) 
734 if ((rnh = rt tables[i]) && (af == 0 || af == i) && 
735 {error = rnh-»rnh, walktree {rnh, 
736 Sysctl dumpentry, &w))) 
737 break; 

738 break; 

739 case NET RT IFLIST: 

740 error - sysctl iflist(af, &w); 
741 } 

742 Spix(s); 

743 if (w.w tmem) 

744 free(w.w tmem, M RTABLE); 

745 w.w needed «- w.w given; 

746 if (where) ( 

747 *given - w.w where - where; 

748 if (*given « w.w needed) 

749 return (ENOMEM); 

750 ) else ( 

751 *given - (11 * w.w needed) / 10; 
752 } 

753 return (error); 

754 ) 


rtsock.c 
图 19-38 ( 续 ) 


2. 初始 化 walkarg 结 构 
723-728 把 walkarg 结 构 (图 19-31) 设 置 成 0， 并 初始 化 下 列 成 员 : 把 w_where 设 置 成 调用 
进程 中 为 结果 准备 的 缓存 地 址 ; w_given 是 该 缓存 的 比特 数目 ( 当 w_where 为 空 指针 时 ， 作 
为 输入 参数 ， 该 成 员 没 有 实际 含义 ， 但 在 输出 时 它 必 须 被 设置 成 将 要 返回 的 结果 的 长 度 ); 
w_needed 被 设置 成 缓存 的 大 小 的 负数 ; w_op 指 明 操 作 类 型 ( 值 为 NET_RT_xxx); w_arg 被 
设置 成 标志 值 。 

3. 导出 路 由 表 
731-738 NET_RTm_DUMP 和 NET_RT_FLAGS 操 作 的 处 理 是 相同 的 : 利用 一 个 循环 语句 遍历 
所 有 的 路 由 表 (zt_table 数 组 )， 如 果 系 统 使 用 了 该 路 由 表 ， 并 且 地 址 族 调 用 参数 为 0 或 地 址 
族 调用 参数 与 该 路 由 表 的 族 相 匹配 ， 则 调用 rnh_walktree 函 数 来 处 理 整 个 路 由 表 。 图 18- 
17 所 给 出 的 *nh_walktree 国 数 是 通常 使 用 的 rn_walktree 国 数 。 该 孙 数 的 第 二 个 参数 的 
值 是 另 一 个 函数 的 地 址 ， 这 个 函数 (sysct1_dumpentry) 将 被 调用 以 处 理 选 路 树 的 每 一 个 叶 
子 。rn_walktree 的 第 三 个 参数 是 个 任意 类 型 的 指针 ， 该 指针 将 传递 给 
sysctl_dumpentry 国 数 。 在 这 里 ， 它 指向 一 个 waLkarg 结 构 ， 该 结构 包含 了 有 关 


sysct1l 调 用 的 所 有 信息 。 
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4. 返回 接口 列表 
739-740 NET_RT_IFLIST 操 作 调 用 sysct1_ifl1ist 国 数 来 处 理 所 有 的 iftnet 结 构 。 

5. 释放 缓存 
743-744 如 果 由 rt_msg2 分 配 的 缓存 里 含有 选 路 销 息 ， 则 释放 该 缓存 。 

6. 更 新 w_needed ` 
745 zt_msg2 国 数 把 每 个 销 息 的 长 度 都 加 入 到 w_needed 中 。 而 该 变量 被 我 们 初始 化 成 
w_given 的 负数 ， 所 以 它 的 值 可 以 表示 成 : 

w needed = 0 - w given + totalbytes 
A, totalbytesemHirt msg2 tK BC JE) PUE ELLE EARN. 3 sf Ew needearm 
加 入 w_given 的 值 ， 我 们 就 能 得 到 所 有 消息 的 字 节 总 数 : 


w needed = 0 - w given + totalbytes + w given 
= totalbytes 


因为 等 式 中 两 个 w_given 的 值 最 终 相互 抵消 ， 所 以 当 进 程 所 指定 的 w_where 是 个 空 指针 
时 ， 就 没有 必要 初始 化 w_given 的 值 。 事 实 上 ， 图 19-35 中 的 变量 needed 就 没有 被 初始 化 。 

7. 返回 报 文 的 实际 长 度 
746-749 ”如 果 where 指 针 非 空 ， 则 通过 given 指 针 返 回 保存 在 缓存 中 的 字 节 数 。 如 果 返 回 
的 数值 小 于 进程 指定 的 缓存 的 大 小 ， 则 返回 一 个 差错 ， 因 为 返回 信息 被 截 短 了 。 

8. 返回 报 文 长 度 的 估算 什 
750-752 当 where 指 针 为 空 时 ， 进 程 只 想 获得 要 返回 的 字 节 总 数 。 为 了 防止 在 两 次 
sysct1 调 用 之 间 相应 的 表 被 增 大 ， 我 们 将 该 字 节 总 数 扩 大 了 10%。10% 这 个 增 量 的 确定 没有 
特定 的 理由 。 


19.15; sysctl_dumpentry Až 


在 前 一 节 中 我 们 阐述 了 被 sysct1_rtable 调 用 的 rn_walktree 是 如 何 调用 本 函数 的 。 
图 19-39 给 出 了 本 函数 的 代码 。 
623-630 ”每 次 调用 本 函数 时 ， 第 一 个 参数 指向 一 个 radix_node 结 构 ， 同 时 它 也 是 一 个 
rtentry 结 构 的 指针 ， 第 二 个 参数 指向 一 个 由 sysct1_rtable 初 始 化 了 的 walkarg 结 构 。 

1. 检测 路 由 表 项 的 标志 
631-632 如 果 进 程 指定 了 标志 值 mib[5])， 则 忽略 那些 rt_flags 成 员 中 没有 设置 该 标志 的 
表 项 。 在 图 19-36 中 ， 我 们 可 以 看 到 arp 程 序 使 用 这 种 方法 来 选择 那些 设 有 RTF_LLINFO 标 志 的 
表 项 ， 因 为 ARP 仅 对 这 些 表 项 感 兴趣 。 

2. 构造 选 路 消息 
633-638 rti_info 数 组 中 的 下 列 四 个 指针 是 从 路 由 表 项 中 复制 而 得 的 : dst. gate. 
netmask 和 genmask。 前 两 个 总 是 非 空 的 ， 但 另外 两 个 可 以 是 空 指针 。 调 用 rt_msg2 是 为 
了 构造 一 个 RTM_GET 消 息 。 

3. 复制 消息 回 传 给 进程 
639-651 ”如 果 进 程 需要 返回 一 个 报 文 ， 并 且 rt_msg2 分 配 了 一 个 缓存 ， 则 将 选 路 报 文中 的 
其 余部 分 填写 到 w_tmem 所 指向 的 缓存 中 去 ， 并 调用 copyout 复 制 消息 回 传 给 进程 。 如 果 复 
制 成 功 ， 就 增 大 w_where， 增 加 的 数目 等 于 所 复制 的 字 节 的 数目 。 
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623 int rtsock.c 
624 sysctl dumpentry (rn, w) 
625 struct radix node *rn; 
626 struct walkarg *w; 
627 ( 
628 struct rtentry *rt - (struct rtentry *) rn; 
629 int error = 0, size; 
630 struct rt addrinfo info; 
631 if (w-»w op == NET RT FLAGS && !(rt-»rt, flags & w-»w, arg)) 
632 return 0; 
633 bzero((caddr.t) & info, sizeof(info)); 
634 dst = rt key (rt): 
635 gate z rt-»rt, gateway; 
636 netmask = rt mask(rt); 
637 genmask - rt-»rt, genmask; 
638 Size - rt, msg2(RTM GET, &info, 0, w); 
639 if (w-»w where && w-»w tmem) ( 
640 struct rt msghdr *rtm = (struct rt msghár *) w-»w tmem; 
641 rtm-»rtm flags - rt-»rt flags; 
642 rtm-»rtm, use = rt-»rt use; 
643 rtm-»rtm rmx = rt-»rt rmx; 
644 rtm-»rtm index - rt-»rt ifp-»if index; 
645 rtm-»rtm errno - rtm-»rtm pid - rtm-»rtm seq - 0; 
646 rtm-»rtm addrs - info.rti addrs; 
647 if (error = copyout((caddr t) rtm, w-»w where, size)) 
648 w-»w where - NULL; 
649 else 
650 w-»w where «- size; 
651 ) 
652 return (error); 
653 ) 
rtsock.c 


图 19-39 sysctl dumpentry E: 处 理 一 个 路 由 表 项 


19.16 sysctl iflisti£Z 


图 19-40 给 出 了 本 函数 的 代码 。 本 函数 由 sysct1l_rtable 直 接 调用 ， 用 来 把 接口 列表 返 
回 给 进程 。 

本 国 数 由 一 个 for 循 环 组 成 ， 该 循环 从 指针 ifnet 开 始 ， 针 对 每 个 接口 重复 执行 。 接 着 
用 whi1e 循 环 处理 每 个 接口 的 i1faddr 结 构 链表 。 函 数 将 针对 每 个 接 日 产生 一 个 
RTM_IFINFO 选 路 消息 ， 并 且 针 对 每 个 地 址 产生 一 个 RTM_NEWADDR 消 息 。 

1. 检测 接口 索引 
654-666 进程 可 以 指定 一 个 非 零 的 标志 参数 (图 19-36 中 的 mib[51)。 函 数 用 接口 的 
if_index 值 与 之 比较 ， 只 有 匹配 时 ， 才 进行 处 理 。 

2. 创建 选 路 消息 
667-670 在 RTM_IFINFO 消 息 中 只 返回 了 唯一 的 一 个 插口 地 址 结构 ， 即 ifpaddr。 该 
RTM_IFINFO 消 息 是 由 rt_msg2 创 建 的 。info 结 构 中 的 1fpaddr 指 针 被 设置 成 9， 因 为 该 
info 结 构 还 要 用 来 产生 后 面 的 RTM_NEWADDR 消 息 。 

3. 复制 消息 回 传 给 进程 
671-681 ”如 果 进 程 需要 返回 消息 ， 则 填 入 if_msghar 结 构 的 其 余部 分 ， 用 copyout 给 
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程 复制 该 缓存 ， 并 增 大 w_where。 





654 int 

655 sysctl iflist(af, w) 

656 int af; 

657 struct walkarg *w; 

658 ( 

659 struct ifnet *ifp; 

660 struct ifaddr *ifa; 

661 struct rt addrinfo info; 

662 int len, error - 0; 

663 bzero((caddr t) & info, sizeof(info)); 

664 for (ifp = ifnet; ifp; ifp = ifp-»if next) ( 

665 if (w-»w arg && w-»w arg !- ifp-»if index) 
666 continue; 

667 ifa = ifp-»if addrlist; 

668 ifpaddr = ifa-»ifa addr; 

669 len = rt msg2(RTM IFINFO, &info, (caddr t) 0, w); 
670 ifpaddr - 0; 

671 if (w-»w where && w-»w tmem) { 

672 struct if msghdr *ifm; 

673 ifm = (struct if,msghdr *) w-»w tmem; 

674 ifm-»ifm index = ifp-»if index; 

675 ifm-»ifm flags = ifp-»if flags; 

676 ifm-»ifm data = ifp-»if data; 

677 ifm-»ifm addrs = info.rti addrs; 

678 if (error - copyout((caddr t) ifm, w-»w where, 
679 return (error); 

680 w-»w where += len; 

681 } 

682 while (ifa = ifa-»ifa next) { 

683 if (af && af !- ifa-»ifa addr-»sa family) 
684 continue; 

685 ifaaddr = ifa-»ifa addr; 

686 netmask = ifa-»ifa, netmask; 

687 prdaddr = ifa-»ifa dstaddr; 

688 len = rt msg2(RTM NEWADDR, &info, 0, w); 
689 if (w-»w where && w-»w tmem) { 

690 struct ifa msghdr *ifam; 

691 ifam - (struct ifa msghdr *) w-»w tmem; 
692 ifam-»-ifam index = ifa-»ifa ifp-»-if index; 
693 ifam-»ifam flags = ifa-»ifa, flags; 
694 ifam-»ifam metric = ifa-»ifa metric; 
695 ifam--ifam addrs = info.rti addrs; 
696 if (error = copyout(w-»w tmem, w-»w where, len)) 
697 return (error); 

698 w-»w where += len; 

699 ) 

700 } 

701 ifaaddr = netmask = brdaddr = 0; 

702 } 

703 return (0); 

704 ) 


len)) 





图 19-40 sysctl_iflist 函 数 : 返回 接口 列表 及 其 地 址 
4. 循环 处 理 每 一 个 地 址 结构 ， 检测 其 地 址 族 


682-684 处理 接 口 的 每 一 个 ifaddzr 结 构 。 进 程 也 可 以 指定 一 个 非 零 地 址 族 (图 19-36 中 的 
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mib[3]) 来 选择 仅 处 理 那 些 指 定 族 的 接口 地 址 。 

5. 创建 选 路 消息 
685-688 rt_msg2 创 建 的 每 个 RTM_NEWRADDR 消 息 中 最 多 可 以 返回 三 个 播 口 地 址 结构 : 
ifaddr. netmaskíflbrdaddr. 

6. 复制 消息 回 传 给 进程 
689-699 如果 进 程 需要 返回 消息 ， 则 填 和 人 ifa_msghdr 结 构 的 其 余部 分 ， 用 copyout 给 进 
程 复 制 缓存 ， 并 增 大 w_where。 
701 因为 info 数 组 还 要 在 下 一 个 接口 消息 中 使 用 ， 所 以 程序 将 其 中 的 这 三 个 指针 设置 成 0。 


19.17 小 结 


所 有 选 路 消息 的 格式 都 是 相同 的 一 一 个 定 长 的 结构 ， 后 面 跟着 若干 个 插口 地 址 结构 。 
共有 三 种 不 同类 型 的 消息 ， 各 自 具 有 相应 的 定 长 结构 ， 每 种 定 长 结构 的 前 三 个 元 素 都 分 别 标 
识 消 息 的 长 度 、 版 本 和 类 型 。 每 种 结构 中 的 比特 掩 码 指定 哪些 插口 地 址 结构 跟 在 定 长 结构 之 
后 。 
这 些 消 息 以 两 种 方式 在 内 核 与 进程 之 间 传 递 。 消 息 可 以 在 任意 一 个 方向 上 传递 ， 并 且 都 
是 通过 选 路 插口 每 次 读 或 写 一 个 消息 。 这 就 使 得 一 个 超级 用 户 进程 对 内 核 路 由 表 的 访问 具有 
完全 的 读 写 能 力 。 选 路 守护 进程 (如 routed 和 gated) 就 是 这 样 实现 其 期 望 的 选 路 策略 的 。 
另外 ， 任 何 一 个 进程 都 可 以 用 sysct1 系 统 调用 来 读 取 内 核 路 由 表 的 内 容 。 这 种 方法 不 需 
要 涉及 选 路 插口 ， 也 不 需要 特别 的 权限 。 最 终 的 结果 通常 包含 许多 选 路 消息 ， 该 结果 作为 系 
统 调用 的 一 部 分 被 返回 。 由 于 进程 不 知道 结果 的 大 小 ， 因 此 ， 为 系统 调用 提供 了 一 种 方法 来 
返回 结果 的 大 小 而 不 返回 结果 本 身 。 
习题 
19.1 RTF_DYNAMIC 和 RTF._MODIFIED 标 志 之 间 有 什么 区 别 ? 对 于 一 个 给 定 的 路 由 表 
项 ， 它 们 可 以 同时 设置 吗 ? 

19.2 当 用 下 列 命令 添加 默认 路 由 时 会 有 什么 情况 发 生 ? 
bsdi $ route add default -cloning -genmask 255.255.255.255 sun 

19.3 某 路 由 表 包 含 了 15 个 ARP 表 项 和 20 个 路 由 ， 试 估算 用 sysct1 导 出 该 路 由 表 时 需要 
多 少 空间 。 





第 20 章 选 路 插口 


20.1 引言 


一 个 进程 使 用 选 路 域 (routing domain) 中 的 一 个 插口 来 发 送 和 接收 前 一 章 所 描述 的 选 路 报 
文 。 socket 系 统 调用 需要 指定 一 个 PF_ROUTE 的 族 类 型 和 一 个 SOCK_RAW 的 插口 类 型 。 

接着 ， 该 进程 可 以 向 内 核发 送 以 下 五 种 选 路 报 文 : 

1) RTM_ADD: 增加 一 条 新 路 由 。 

2) RTM_DELETE: 删除 一 条 已 经 存在 的 路 由 。 

3) RTM_GET: 取得 有 关 一 条 路 由 的 所 有 信息 。 

4)RTM CHANGE: 改变 一 条 已 经 存在 路 由 的 网 关 、 接 口 或 者 度量 。 

5)RTM LOCK: 说 明 内 核 不 应 该 修改 哪个 度量 。 

除 此 之 外 ， 该 进程 可 以 接收 其 他 七 个 选 路 报 文 ， 这 些 报 文 是 在 发 生 某 些 事件 时 ， 如 接口 
下 线 和 收 到 重 定向 报 文 等 等 ， 由 内 核 生 成 的 。 

本 章 简介 选 路 域 、 为 每 个 选 路 插口 创建 的 选 路 控制 块 、 处 理 进程 产生 的 报 文 的 函数 
(route_output)、 发 送 选 路 报 文 给 一 个 或 多 个 进程 的 函数 (raw_input)、 以 及 不 同 的 支持 
一 个 选 路 插口 上 所 有 插口 操作 的 函数 。 


20.2 routedomain 和 protosw 结 构 


在 描述 选 路 插曲 函数 之 前 ， 我 们 需要 讨论 有 关 选 路 域 的 其 他 一 些 细 方 ; 在 选 路 域 中 支持 
的 SOCK_RAW 协 议 ; 以 及 每 个 选 路 插口 所 附带 的 选 路 控制 块 。 
图 20-1 列 出 了 称 为 routedomain 的 PF_ROUTE 域 的 domain 结 构 。 


dom family PF ROUTE 域 的 协议 族 

dom name route AVE 

dom, init route init 域 的 初始 化 ， 图 18-30 
dom externalize 0 在 选 路 域 中 不 使 用 
dom dispose 0 在 选 路 域 中 不 使 用 


dom_protosw routesw 协议 交换 结构 ， 图 20-2 
dom_protoswNPROTOSW 指向 协议 交换 结构 之 后 的 指针 
dom next 由 aomaininit 填 人 ， 图 7-15 
dom rtattch 在 选 路 域 中 不 使 用 

dom rtoffset 在 选 路 域 中 不 使 用 

dom maxrtkey 在 选 路 域 中 不 使 用 





图 20-1 routedomain 结 构 


与 支持 多 个 协议 (TCP、 UDP 和 ICMP 等 ) 的 Internet 域 不 一 样 ， 在 选 路 域 中 只 支持 
SOCK_RAW 类 型 的 一 种 协议 。 图 20-2 列 出 了 PF_ROUTE 域 的 协议 转换 项 。 


pr type 


pr. domain 


routesw[0] 


SOCK RAW 


&routedomain 


pr. protocol 0 


pr flags 
pr. input 
pr,.output 
pr ctlinput 


PR ATOMI!PR ADDR 
raw input 
route output 


raw ctlinput 


pr. ctloutput 0 


pr. usrreq 


pr init 


route usrreq 


raw init 
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原始 插 吕 
选 路 域 部 分 


插口 层 标 志 ， 协 议 处 理 时 不 使 用 
不 使 用 这 项 ，raw_input 直 接 调用 
PRU_SEND 请 求 所 调用 

控制 输入 函数 

不 使 用 

对 一 个 进程 通信 请 求 的 响应 
初始 化 
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不 使 用 
不 使 用 
不 使 用 
用 于 sysct1(8) 系 统 调用 


pr fasttimo 
pr. slowtimo 
pr. drain 


pr sysctl sysctl, rtable 





图 20-2 选 路 协议 protosw 的 结构 


20.3 选 路 控制 块 
每 当 采用 如 下 形式 的 调用 创建 一 个 选 路 插口 时 ， 


socket (PF_ROUTE, 

对 协议 的 用 户 请 求 函 数 (route_usrreq) 的 一 个 对 应 的 PRU_ATTACH 请 求 分 配 一 个 选 路 
控制 块 ， 并 且 将 它 链接 到 插口 结构 上 。protocol 参 数 可 以 将 发 送 给 这 个 插口 上 的 进程 的 报 文 类 
型 限制 为 一 个 特定 族 。 例 如 ， 如 果 将 protocol 参 数 说 明 为 AF_INET， 只 有 包含 了 Internet 地 
址 的 选 路 报 文 将 被 发 送 给 这 个 进程 。protocol 参 数 为 0 将 使 得 来 自 内 核 的 所 有 选 路 报 文 都 发 送 
给 这 个 插口 。 

记 住 我 们 把 这 些 结构 称 为 选 路 控制 块 ， 而 不 是 原始 控制 块 (Taw control block), 
是 为 了 避免 与 第 32 章 中 的 原始 I 了 控制 块 相 混 清 。 
图 20-3 显 示 了 rawcb 结 构 的 定义 。 


SOCK RAW, protocol); 


raw cb.h 
39 struct rawcb { 
40 struct rawcb *rcb next; /* doubly linked list */ 
41 struct rawcb *rcb prev; 
42 struct socket *rcb socket;  /* back pointer to socket */ 
43 struct sockaddr *rcb faddr; /* destination address */ 
44 struct sockaddr *rcb laddr; /* socket's address */ 
45 struct sockproto rcb proto; /* protocol family, protocol */ 
46 ) 
47 dédefine sotorawcb(so) ((struct rawcb *) (so)-»so pcb) 
raw cb.h 


图 20-3 rawcb 结 构 


另外 ， 分 配 了 一 个 相同 名 字 的 全 局 结构 ，rawcb， 作 为 这 个 双 疝 链表 的 头 。 图 20-4 显 示 
了 这 种 情况 。 
39-47 我们 在 图 19-26 中 显示 了 sockproto 的 结构 。 它 的 sp_family 成 员 变量 被 设置 为 
PF_ROUTE，,，sp_protocol 成 员 变 量 被 设置 为 socket 系 统 调 用 的 第 三 个 参数 。 
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rcb_faddr 成 员 变量 被 永久 性 地 设置 为 指向 route_src 的 指针 ， 我 们 在 图 19-26 中 描述 了 
route_src。rcb_laddr 总 是 一 个 空 指针 。 
描述 符 描述 符 


| 


file() 







DTYPE SOCKET 














Bocket() socket () 

















sock. nau 


so. pcb 

























所 有 选 路 控制 块 的 
双向 链接 循 坏 列表 


图 20-4 原始 协议 控制 块 与 其 他 数据 结构 的 关系 









20.4 raw_init 函 数 


在 图 20-5 中 显示 的 raw_init 函 数 是 图 20-2 中 的 protosw 结 构 的 协议 初始 化 函数 。 我 们 
在 图 18-29 中 描述 了 选 路 域 的 完整 初始 化 过 程 。 
38-42 这 个 函数 将 头 结构 的 下 一 个 和 前 一 个 指针 设置 为 指向 自身 来 对 这 个 双向 链表 进行 初 
始 化 。 





38 void raw_usrreq.c 
39 raw init() 
40 { 
41 rawcb.rcb next = rawcb.rcb,prev = &rawcb; 
42 ) 
raw usrreg.c 





图 20-5 raw initzAJ&: 初始 化 选 路 控制 块 的 双向 链表 


20.5 route output 


如 同 我 们 在 图 18-11 所 显示 的 ， 当 给 协议 的 用 户 请 求 函 数 发 送 PRU_SEND 请 求 时 ， 就 会 调 
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用 route_output， 这 是 一 个 进程 向 一 个 选 路 插口 进行 写 操作 所 引起 的 。 在 图 18-9 中 ， 我 们 
给 出 了 内 核 接受 的 、 由 进程 发 出 的 五 种 不 同类 型 的 选 路 报 文 。 
因为 这 个 函数 是 由 一 个 进程 的 写 操作 激活 的 ， 来 自 于 该 进程 的 数据 (发 送 给 进程 的 选 路 报 
文 ) 被 放 在 一 个 由 sosend 开 始 的 mbuf 链 中 。 图 20-6 显 示 了 大 概 的 处 理 步 鸡 ， 假 定 进程 发 送 了 
一 个 RTM_ADD 命 令 ， 说 明 三 个 地 址 : 目的 地 址 、 它 的 网 关 和 一 个 网 络 拓 码 (因此 ， 这 是 一 个 网 
络 路 由 ， 而 不 是 一 个 主机 路 由 )。 
进程 进程 进程 


XR 
50. Uggr Aie raw input 
OOPBACK ~ " s 1 
(ihg 选择 的 进程 


2 x. 
Co 2b E 
NA c£ 

Q Sz 


rtm_addrs 0x07 


rt msghdr(í() 
的 数据 


目的 下 地 址 
sockaddr in() 







网 关 IP 地 址 
Sockaddr iní() 


网 络 掩 码 
Sockaddr in() 





rt addrinfo() 
rti addrs 0x07 
rti info[DST] 
rti info[GATEWAY] 
rt i-info [NETMASK] 从 rtm_addrs 位 掩 码 构 
rti info[GENMASK]|NULL 造 的 r_addrs 指 针 数 组 
rti_info[IFP] NULL 
rti info[IFA] NULL 
rti info[AUTHOR] |NULL 
rti info[BRD] NULL 


图 20-6 一 个 进程 发 出 的 RTM_ADD 命 令 的 处 理 过 程 示例 
在 这 个 图 中 有 几 点 需要 引起 注意 ， 我 们 在 介绍 route_output 的 源 代码 时 讨论 了 这 里 需 
要 注意 的 大 多 数 情 况 。 另 外 ， 为 了 节省 空间 ， 我 们 省 略 了 rt_addqrinfo 结 构 中 每 个 数组 下 


标的 RTAX_ 前 级。 
。 进 程 通过 设置 比特 掩 码 rtm_addrs 来 说 明 在 定 长 的 rt_msghdr 结 构 之 后 有 哪些 插口 地 
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址 结构 。 我 们 显示 了 一 个 值 为 0x07 的 比特 掩 码 ， 表 示 有 一 个 目的 地 址 、 一 个 网 关 地 址 
和 一 个 网 络 掩 码 (图 19-19)。RTM_ADD 命 令 需要 前 两 个 地 址 ; 第 三 个 地 址 是 可 选 的 。 另 
一 个 可 选 的 地 址 ，genmask 说 明了 用 来 产生 克隆 路 由 的 掩 码 。 

。write 系 统 调用 (sosend 函 数 ) 将 来 自 进程 的 一 个 缓存 数据 复制 到 内 核 的 一 个 mbuf 链 中 。 

。m_copydata 将 mbuf 链 中 数据 复制 到 route_output 使 用 malloc 获 得 的 一 个 缓存 中 。 
访问 存储 在 单个 连续 缓存 中 的 结构 以 及 结构 后 面 的 若干 插口 地 址 结构 ， 比 访问 一 个 mbuf 
链 更 容易 。 

*route_output 调 用 rt_xaddrs 国 数 取 得 比特 掩 码 ， 并 且 构 造 一 个 指向 缓存 的 
rt_addrinfo 结 构 。route_output 中 的 代码 使 用 图 19-19 中 第 五 栏 显 示 的 名 字 来 引 
用 这 些 结 构 。 比 特 掩 码 也 要 复制 到 rti_adars 成 员 中 。 

。route_output 一 般 要 修改 rt_msghdr 结 构 。 如 果 发 生 了 一 个 错误 ， 相 应 的 errno 值 
被 返回 到 rtm_errno 中 (例如 ， 如 果 路 由 已 经 存在 ， 则 返回 EEXIST); 否则 ， 
RTF_DONE 标 志 与 进程 提供 的 rtm_flags 执 行 逻辑 或 操作 。 

。rt_msghdr 结 构 以 及 接着 的 地 址 成 为 0 个 或 多 个 正在 读 选 路 插口 的 进程 的 输入 。 首 先 使 
用 m_copyback 将 缓存 转换 为 一 个 nbuf 链 。raw_input 经 过 所 有 的 选 路 PCB， 并 且 传 
递 一 个 复制 给 对 应 的 进程 。 我 们 还 显示 了 一 个 带 有 选 路 插口 的 进程 ， 如 果 该 进程 设 有 禁 
止 So_USELOOPBRACK 揪 口 选项 ， 就 会 收 到 它 写 给 那个 插口 的 每 个 报 文 的 一 个 复制 。 

为 了 避免 收 到 它们 自己 的 选 路 报 文 的 一 个 复制 ， 有 些 程序 ， 如 route， 将 第 二 

个 参数 置 为 0 来 调用 shutdown， 以 防止 从 选 路 插口 上 收 到 任何 数据 。 


我 们 分 成 七 个 部 分 分 析 r*oute_output 的 源 代 码 。 图 20-7 显 示 了 这 个 国 数 的 大 概 流 程 。 





int 

route output() 

t 
R Malloc() to allocate buffer; 
m copydata() to copy from mbuf chain into buffer; 
rt xaddrs() to build rt addrinfo(); 


switch (message type) ( 
case RTM ADD: 
rtrequest(RTM ADD); 
rt setmetrics(); 
break; 
case RTM DELETE: 
rtrequest (RTM DELETE); 
break; ， 


case RTM GET: 

case RTM CHANGE: 

case RTM LOCK: 
rtallocl(); 


switch (message type) ( 
case RTM GET: 
rt msg2(RTM GET); 
break; 


case RTM CHANGE: 
图 20-7 _ route_output 处 理 步骤 小 结 
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change appropriate fields; 
/* fall through */ 


case RTM LOCK: 
set rmx locks; 
break; 
} 
break; 
} 


set rtm error if error, else set RTF_DONE flag; 
m copyback() to copy from buffer into mbuf chain; 


raw inputí(); /* mbuf chain to appropriate processes */ 


图 20-7 (fX) 


route_output 的 第 一 部 分 显示 在 图 20-8 中 。 
risock.c 





113 int 

114 route output (m, so) 
115 struct mbuf *m; 

116 struct socket *so; 


117 ( 

118 struct rt msghdr *rtm - 0; 

119 struct rtentry *rt - 0; 

120 struct rtentry *saved nrt - 0; 

121 struct rt, addrinfo info; 

122 int len, error = 0; 

123 struct ifnet *ifp - 0; 

124 struct ifaddr *ifa = 0; 

125 #define senderr(e) ( error = e; goto flush;) 
126 . if (m == 0 || ((m-»m len < sizeof(long)) && 
127 (m = m pullup(m, sizeof(long))) == 0)) 
128 return (ENOBUFS); 

129 if ((m-»m flags & M PKTHDR) == 0) 

130 panic("route output"); 

131 len = m-»m pkthdr.len; 

132 if (len < sizeof(*rtm) || 

133 len != mtod(m, struct rt msghdr *)-»rtm msglen) ( 
134 dst - 0; 

135 senderr (EINVAL); 

136 ) ` 

137 R Malloc(rtm, struct rt msghdr *, len); 

138 if (rtm == 0) ( 

139 dst = 0; 

140 senderr (ENOBUFS); 

141 ) 

142 m copydata(m, 0, len, (caddr t) rtm); 

143 if (rtm-»rtm version !- RTM VERSION) ( 

144 dst - 0; 

145 senderr (EPROTONOSUPPORT) ; 

146 } 

147 rtm->rtm pid = curproc-»p pid; 

148 info.rti_addrs = rtm-»rtm addrs; 

149 rt xaddrs((caddr t) (rtm + 1), len + (caddr t) rtm, &info); 


图 20-8 route_output 国 数 : 初始 化 处 理 ， 从 mbuf 链 中 复制 报 文 
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150 if (dst == 0) 


151 senderr (EINVAL); 

152 if (genmask) ( 

153 struct radix node *t; 

154 t = rn addmask((caddr t) genmask, 1, 2); 

155 if (t && Bcmp(genmask, t-»rn key, *(u.char *) genmask) == 0) 
156 genmask - (struct sockaddr *) (t-»rn key); 

157 else 

158 senderr (ENOBUFS); 

159 ) 


— rtsock.c 
图 20-8 (£x) 


1. 检查 mbuf 的 合法 性 
113-136 检查 mbuf 的 合法 性 : 它 的 长 度 必须 至 少 是 一 个 rt_msghdar 结 构 的 大 小 。 从 mbuf 
的 数据 部 分 取出 第 一 个 长 字 ， 里 面包 含 了 rtm_msglen 的 值 。 

2. 分 配 缓存 
137-142 分 配 一 个 缓存 来 存放 整个 报 文 ，m_copydata 将 报 文 从 mbuf 链 复制 到 缓存 。 

3. 检查 版 本 号 
143-146 检查 报 文 的 版 本 号 。 如 果 将 来 引入 了 新 版 本 的 选 路 报 文 ， 这 个 成 员 变量 可 以 用 来 
对 早期 版 本 提供 支持 。 
147-149 进程 的 ID 被 复制 到 rtm_pid， 进 程 提 供 的 比特 掩 码 被 复制 到 该 函数 的 一 个 内 部 结 
构 info.rti_addrs。 函 数 rt_xaddrs( 在 下 一 节 显 示 ) 填 入 info 结 构 的 第 8 个 插口 地 址 指针 
来 指示 当前 包含 报 文 的 缓存 。 

4. 需要 的 目的 地 址 
150-151 所 有 的 命令 都 需要 一 个 目的 地 址 。 如 果 info.rti_info[RTAX_DST] 项 是 一 个 
空 指针 ， 就 需要 一 个 BINVAL。 记 住 qst 引 用 了 这 个 数组 成 员 ( 图 19-19)。 

5. 处 理 可 选 的 genmask 
152-159 genmask 是 可 选 的 ， 它 是 在 设置 了 RTF_CLONING 标 志 后 (图 19-8)， 用 作 所 创建 路 
由 的 网 络 掩 码 。rn_addmask 将 这 个 掩 码 加 入 到 掩 码 树 中 ， 并 首先 在 掩 码 树 中 查找 是 否 存 在 
与 这 个 掩 码 相同 的 条 目 ， 如 果 找 到 ， 就 引用 那个 条 目 。 如 果 在 掩 码 树 中 找到 或 者 将 这 个 掩 码 
加 入 到 掩 码 树 中 ， 还 要 再 检查 一 下 掩 码 树 中 的 那个 条 目 是否 真 等 于 genmask 的 值 ， 如 果 等 于 ， 
则 genmask 指 针 就 被 替代 为 掩 码 树 中 那个 掩 码 的 指针 。 

图 20-9 显 示 了 route_output 国 数 处 理 RTM_ADD 和 RTM_DELETE 的 下 一 部 分 。 
162-163 RTM_ADD 命 令 要 求 进程 说 明 一 个 网 关 。 
164-165 rtrequest 处 理 该 请 求 。 如 果 输 入 的 路 由 是 一 个 主机 路 由 ， 则 metmask 指 针 可 
以 为 空 。 如 果 一 切 OK， 则 saved_nrt 返 回 新 的 路 由 表 项 的 指针 。 
166-172 将 rt_metrics 结 构 从 调用 者 缓存 中 复制 到 路 由 表 项 中 。 引 用 计数 减 1， 并 且 保 
存 genmask 指 针 ( 可 能 是 一 个 空 指针 )。 
173-176 处 理 RTM_DELETE 命 令 非 常 简单 ， 因 为 所 有 的 工作 都 由 rtrequest 来 完成 。 既 
然 最 后 一 个 参数 是 一 个 空 指针 ， 如 果 引 用 计数 为 0，rtrequest 就 调用 rtfree 从 路 由 表 中 删 
除 指定 的 项 (图 19-7)。 

下 一 步 的 处 理 过 程 显示 在 图 20-10 中 ， 它 显示 了 RTM_GET、RTM_CHANGE 和 RTM_LOCK 命 
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令 的 公共 代码 。 
160 switch (rtm-»rtm type) ( rsock.c 
161 Case RTM ADD: 
162 if (gate == 0} 
163 senderr (EINVAL); 
164 error = rtrequest (RTM ADD, dst, gate, netmask, 
165 rtm-»rtm flags, &saved nrt); 
166 if (error -- 0 && saved nrt) ( 
167 rt setmetrics(rtm-»rtm inits, 
168 &rtm-»rtm rmx, &saved nrt-»rt rmx); 
169 saved, nrt-»rt, refcnt--; 
170 Saved nrt-»rt, genmask - genmask; 
171 } f 
172 break; 
173 case RTM_DELETE: 
174 error = rtrequest(RTM DELETE, dst, gate, netmask, 
175 rtm->rtm_flags, (struct rtentry **) 0); 
176 break; 
rísock.c 
图 20-9 route_output 国 数 : 进程 RTM_ADD 和 RTM_DELETE 命 令 
rtsock.c 
177 Case RTM GET: 
178 case RTM CHANGE: 
179 case RTM LOCK: 
180 rt = rtalloclí(dst, 0); 
181 if (rt == O0) 
182 senderr (ESRCH); 
183 if (rtm-»rtm type !- RTM GET) ( /* XXX: too grotty */ 
184 struct radix node *rn; 
185 extern struct radix node head *mask rnhead; 
186 if (Bcmp(dst, rt key(rt), dst-»sa len) !- 0) 
187 senderr(ESRCH); 
188 if (netmask && (rn = rn search(netmask, 
189 mask, rnhead-»rnh treetop))) 
190 netmask - (struct sockaddr *) rn-»rn key; 
191 for (rn = rt-»rt nodes; rn; rn = rn-»rn, dupedkey) 
192 if (netmask == (struct sockaddr *) rn-»rn, mask) 
193 break; 
194 if (rn == 0) 
195 senderr (ETOOMANYREFS); 
196 rt - (struct rtentry *) rn; 
197 ) rtsock.c 





图 20-10 route outputF4Zi: RTM GET, RTM_CHANGE 和 RTM_LOCK 的 公共 处 理 部 分 


6. 查找 已 经 存在 的 项 
177-182 ”因为 三 个 命令 都 引用 了 一 个 已 经 存在 的 项 ， 所 以 用 rtalloc1 函 数 来 查找 这 个 项 。 
如 果 没 有 找到 ， 则 返回 一 个 ESRCH。 

7. 不 允许 网 络 匹 配 


183-187 


对 于 RTM_CHANGE 和 RTM_LOCK 命 令 ， 一 个 网 络 匹 配 是 不 合适 的 : 需要 一 个 路 由 


表 关 键 字 的 精确 匹配 。 因 此 ， 如 果 ast 参 数 不 等 于 路 由 表 关 键 字 ， 这 个 匹配 就 是 一 个 网 络 匹 
配 ， 返 回 一 个 ESRCH。 
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188-193 即使 是 一 个 精确 的 匹配 ， 如 果 存 在 网 络 掩 码 不 同 的 重复 表 项 ， 仍 然 必 须 查找 正确 
的 项 。 如 果 提 供 了 一 个 netmask 和 参数 ， 就 要 在 掩 码 表 中 查找 它 (mask_rnhead)。 如 果 找 到 
了 ，netmask 指 针 就 被 奉 代为 掩 码 树 中 相应 掩 码 的 指针 。 检 查 重 复 表 项 列表 的 每 个 叶 结 点 ， 
查找 一 个 rn_mask 指 针 等 于 netmask 的 项 。 这 个 测试 只 是 比较 指针 ， 而 不 是 指针 所 指向 的 结 
构 。 这 是 因为 所 有 的 掩 码 都 出 现在 掩 码 树 中 ， 并 且 每 个 不 同 的 掩 码 只 有 一 个 副本 出 现在 这 个 
掩 码 树 中 。 大 多 数 情况 下 ， 表 项 不 会 重复 ， 因 此 for 循 环 只 执行 一 次 。 如 果 一 个 主机 路 由 项 
被 修改 了 ， 不 应 该 提供 一 个 网 络 掩 码 ， 因 此 ，netmask 和 rn_mask 都 是 空 指针 (两 者 是 相等 
的 )。 但 是 ， 如 果 有 一 个 附带 掩 码 的 项 被 修改 了 ， 那 个 掩 码 必须 作为 ne tmask 参 数 提供 。 

194-195 如 果 fer 循 环 终止 时 没有 找到 一 个 匹配 的 网 络 掩 码 ， 就 返回 BTOOMANYREEFS。 


注释 XXX 表示 这 个 函数 必须 做 所 有 的 工作 来 找到 需要 的 项 。 所 有 这 些 细节 在 其 他 一 些 
类 似 rtallocl 的 肖 数 中 都 应 该 被 隐藏 ,rtallocl 检 测 网 络 匹 配 ， 并 且 处 理 掩 码 参 数 。 


这 个 函数 的 下 一 部 分 继续 处 理 RTM_GET 命 令 ， 显 示 在 图 20-11 中 。 这 个 命令 与 


- rtsock.c 
198 switch (rtm-»rtm type) ( 
199 case RTM GET: 
200 dst = rt, key (rt); 
201 gate - rt-»rt gateway; 
202 netmask - rt mask(rt); 
203 genmask - rt-»rt, genmask; 
204 if (rtm-»rtm addrs & (RTA, IFP | RTA IFA)) ( 
205 if (ifp = rt-»rt ifp) ( 
206 ifpaddr = ifp-»-if .addrlist-»ifa, addr; 
207 ifaaddr = rt-»rt ifa-»ifa addr; 
208 rtm-»rtm index - ifp-»if index; 
209 ) else ( 
210 ifpaddr = 0; 
211 ifaaddr - 0; 
212 ) 
213 } 
214 len = rt msg2(RTM GET, &info, (caddr t) O0, 
215 (struct walkarg *) 0); 
216 if (len > rtm-»rtm msglen) ( 
217 struct rt msghdr *new rtm; 
218 R Malloc(new rtm, struct rt msghdr *, len); 
219 if (new rtm -- 0) 
220 senderr (ENOBUFS); 
221 | Bcopy(rtm, new rtm, rtm-»rtm msglen); 
222 Free (rtm); 
223 rtm - new rtm; 
224 } 
225 (void) rt, msg2(RTM GET, &info, (caddr t) rtm, 
226 (struct walkarg *) 0); 
227 rtm-»rtm flags - rt-»rt flags; 
228 rtm-»rtm rmx = rt-»rt rmx; 
229 rtm-»rtm addrs = info.rti, addrs; 、 
230 break; risock.c 





图 20-11 route_output 国 数 : RTM_GET 处 理 过 程 
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route_output 支 持 的 其 他 命令 的 区 别 在 于 它 能 够 返回 比 传递 给 它 的 更 多 的 数据 。 例 如 ， 只 
需要 输入 一 个 播 口 地 址 结构 ， 即 目的 地 址 ， 但 至 少 返 回 两 个 播 口 地 址 结构 ， 即 目的 地 址 和 它 
的 网 关 。 参 看 图 20-6， 这 就 意味 着 为 mn_copydata 复 制 数据 所 分 配 的 缓存 可 能 需要 扩充 大 小 。 

9. 返回 目的 地 址 、 网 关 和 掩 码 
198-203 rti_info 数 组 中 存储 了 四 个 指针 : dst、gate、netmask 和 genmask。 后 两 

可 能 是 空 指针 。info 结 构 中 的 这 些 指 针 指 向 进程 将 要 返回 的 各 个 插口 地 址 结构 。 

10. 返回 接口 信息 
204-213 ”进程 可 以 在 rtm_f1lags 比 特 掩 码 中 设置 RTA_IFP 和 RTA_IFA 掩 码 。 如 果 设 置 了 
一 项 或 两 项 ， 就 表示 进程 想 要 接收 这 个 路 由 表 项 所 指示 的 ifaddr 结 构 : 接口 的 链 路 层 地 址 
(由 rt_ifp->addrlist 指 向 ) 以 及 这 个 路 由 项 的 协议 地 址 (由 rt_ifa->ifa_addr 指 向 ) 的 内 
容 。 接 口 索 引 也 会 被 返回 。 

11. 构造 应 答 报 文 
214-224 将 第 三 个 指针 置 为 空 ， 调 用 rt_msg2 来 计算 相应 于 RTM_GET 的 选 路 报 文 和 info 
结构 所 指向 的 地 址 的 长 度 。 如 果 结 果 报 文 的 长 度 超过 了 输入 报 文 的 长 度 ， 就 会 分 配 一 个 新 的 
缓存 ， 输 入 报 文 被 复制 到 新 的 缓存 中 ， 老 的 缓存 被 释放 ，r tm 被 重新 设置 为 指向 新 缓存 。 
225-230 再 次 调用 rt_msg2， 这 次 调用 时 第 三 个 指针 非 空 ， 因 为 在 缓存 中 已 经 构造 了 一 个 
结果 报 文 。 这 次 调用 填 入 rt_msghdr 结 构 的 最 后 三 个 成 员 项 。 

图 20-12 显 示 了 RTM_CHANGE 和 RTM_LOCK 命 令 的 处 理 过 程 。 

12. 改变 网 关 
231-233 如 果 进 程 传递 了 一 个 gate 地 址 ，rt_setgate 就 被 调用 来 改变 这 个 路 由 表 项 的 网 关 。 

13. 查找 新 的 接口 
234-244 ”新 的 网 关 ( 如 果 被 改变 ) 可 能 也 需要 rt_ifp 和 rt_ifa 指 针 。 进 程 可 以 通过 传递 一 
个 ifpaddr 揪 口 地 址 结构 或 者 一 个 ifaaGdr 插 口 地 址 结构 来 说 明 这 些 新 的 值 。 先 看 第 一 个 ， 
然后 再 看 第 二 个 。 如 果 进 程 两 个 结构 都 没 传递 ，rt_ifp 和 rt_ifa 指 针 就 被 忽略 。 

14. 检验 接口 是 否 改 变 
245-256 ”如 果 找 到 了 一 个 接口 (ifa 非 空 )， 则 该 路 由 的 现 有 rt_i fa 指针 要 和 新 的 值 进行 比 
较 。 如 果 数 值 已 经 改变 了 ， Me grt fp 和 rt 1fa 的 新 信和 要 存储 到 路 由 表 的 下 项 中 
去 。 在 这 样 做 之 前 ， 先 要 用 RTM_DELETE 命 令 调 用 该 接口 的 请 求 函数 (如 果 定义 了 该 函数 的 
m. 这 个 删除 动作 是 必须 的 ， 因 为 从 一 种 类 型 的 网 络 到 另 一 种 类 型 的 网 络 ， 它 们 的 链 路 层 信 

可 能 会 有 很 大 的 差别 (比如 说 从 一 个 X.25 网 络 改变 成 以 太 网 的 路 由 )， 同 时 我 们 还 必须 通知 输 
"nm. 

15. 更 新 度量 
257-258 rt_setmetrics 修 改 路 由 表 项 的 度量 。 

16. 调用 接口 请 求 函数 
259-260 如 果 定义 了 一 个 接口 请 求 函数 ， 它 就 会 和 RTM_ADD 命 令 一 起 被 调用 。 

17. 保存 克隆 生成 的 掩 码 
261-262 如果 进 程 指定 了 genmask 参 数 ， 就 将 在 图 20-8 中 获得 的 掩 码 的 指针 保存 在 
rt_genmask 中 。 

18. 修改 加 锁 度 量 的 比特 掩 码 
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266-270 RTM_LOCK 命 令 修改 保存 在 rt_rmx.rmx_1ocks 中 的 比特 掩 码 。 图 20-13 显 示 了 
这 个 比特 掩 码 中 不 同比 特 的 值 ， 每 个 度量 一 个 值 。 


231 
232 
233 
234 
235 
236 
237 
238 
239 
240 
241 
242 
243 
244 
245 
246 
247 
248 
249 
250 
251 
252 
253 
254 
255 
256 
257 
258 
259 
260 
261 
262 
263 
264 
265 
266 
267 
268 
269 
270 
271 
272 


273 
274 
275 





risock.c 


case RTM,CHANGE: 


if (gate && rt setgate(rt, rt key(rt), gate)) 
Senderr (EDQUOT) ; 

/* new gateway could require new ifaddr, ifp; flags may also be 
different; ifp may be specified by 11 sockaddr when protocol 
address is ambiguous */ 

if (ifpaddr && (ifa = ifa ifwitbnet(ifpaddr)) && 

(ifp - ifa-»ifa ifp)) 
ifa - ifaof ifpforaddr(ifaaddr ? ifaaddr : gate, 
ifp); 

else if ((ifaaddr && (ifa = ifa ifwithaddr(ifaaddr))) il 

(ifa = ifa ifwithroute(rt-»rt flags, 
rt. key (rt), gate))) 
ifp = ifa-»ifa ifp; 


if (ifa) ( 
struct ifaddr *oifa - rt-»rt ifa; 
if (oifa !- ifa) ( 


if (oifa && oifa-»ifa rtrequest) 
Ooifa-»ifa rtrequest (RTM DELETE, 
rt, gate); 
IFAFREE(rt-»rt ifa); 
rt-»rt ifa - ifa; 
ifa-»ifa refcnte*; 
rt-»rt ifp - ifp; 
} 
) 
rt, setmetrics(rtm-»rtm inits, &rtm-»rtm rmx, 
&rt-»rt rmx); 
if (rt-»rt ifa && rt-»rt ifa-»ifa rtrequest) 
rt-»rt ifa-»ifa rtrequest(RTM ADD, rt, gate); 
if (genmask) 
rt-»rt genmask - genmask; 
/ * 
* Fall into 
*/ 


case RTM LOCK: 


rt-»rt rmx.rmx locks &= ^(rtm-»rtm inits); 
rt-»rt rmx.rmx locks |- 

(rtm-»rtm inits & rtm-»rtm rmx.rmx locks); 
break; 


break; 


senderr (EOPNOTSUPP); 


risock.c 


图 20-12 route_output M$: RTM_CHANGE 和 RTM_LOCK 处 理 过 程 


路 由 表 项 中 rt_metrics 结 构 的 rmx_locks 成 员 是 告诉 内 核 哪些 度量 不 要 管 的 比特 掩 
码 。 即 ，rmx_locks 指 定 的 那些 度量 内 核 不 能 修改 。 内 核 惟一 能 使 用 这 些 度量 的 地 方 是 和 
TCP 一 起 ， 如 图 27-3 所 示 。rmx_pksent 度 量 不 能 被 初始 化 或 加 锁 ， 但 是 内 核 也 从 来 没有 引 
用 或 修改 过 这 个 成 员 。 

进程 发 出 的 报 文中 的 rtm_inits 值 是 一 个 比特 掩 码 ， 指 出 哪些 度量 刚刚 被 
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RTV MTU 初始 化 或 者 锁 住 rmx_mtu 
RTV_HOPCOUNT 初始 化 或 者 锁 住 rmx_hopcount 
RTV EXPIRE 初始 化 或 者 锁 住 rmx_expire 


RTV, RPIPE 初始 化 或 者 锁 住 rmx_recvpipe 
RTV, SPIPE 初始 化 或 者 锁 住 rnx_sendpipe 
RTV_SSTHRESH 初始 化 或 者 锁 住 rmx_ssthresh 

RTV_RTT 初始 化 或 者 锁 住 rmx_rtt 

RTV RTTVAR 初始 化 或 者 锁 住 rmx_rttvar 











图 20-13 对 度量 初始 化 或 加 锁 的 常量 
rt_setmetrics 初 始 化 过 。 报 文中 的 rtm_rmx.rmx._1locks 值 是 一 个 指出 哪些 度量 现在 应 
该 加 锁 的 比特 掩 码 。rt_rmx.rmx_1ocks 的 值 是 一 个 指出 路 由 表 中 哪些 度量 当前 被 加 锁 的 比 
特 掩 码 。 首 先 ， 任 何 将 要 初始 化 的 比特 (rtm_inits) 都 要 解锁 。 任 何 既 被 初始 化 
(rtm_inits) 又 被 加 锁 (rtm_rmx.rmx_locks) 的 比特 都 必须 加 锁 。 

273-275 ”这 个 default 是 用 于 图 20-9 开 始 的 switch 语 句 ， 用 来 处 理 进程 发 出 的 报 文中 除 
了 所 支持 的 五 个 命令 以 外 的 其 他 选 路 命令 。 
route_output 的 最 后 一 部 分 显示 在 图 20-14 中 ， 用 来 发 送 应 答 给 raw_input。 


276 flush: risock.c 
271 if (rtm) ( 

278 if (error) 

279 rtm-»rtm errno - error; 

280 else 

281 rtm-»rtm flags |= RTF. DONE; 

282 ) 

283 if (rt) 

284 rtfree(rt); 

285 { 

286 struct rawcb *rp = 0; 

287 /* 

288 * Check to see if we don't want our own messages. 
289 */ 

290 if ((so-»so options & SO USELOOPBACK) == 0) ( 

291 if (route, cb.any count <= 1) ( 

292 if (rtm) 

293 Free (rtm); 

294 m freem(m); 

295 return (error); 

296 ) 

297 /* There is another listener, so construct message */ 
298 rp = sotorawcb(so); 

299 ) f 

300 if (rtm) { 

301 m copyback(m, 0, rtm-»rtm msglen, (caddr t) rtm); 
302 Free(rtm); 

303 } 

304 if (rp) 

305 rp-»rcb proto.sp family - 0; /* Avoid us */ 
306 if (dst) 

307 route protc.Sp protocol = dst-»sa family; 

308 raw_input (m, &route proto, &route src, kroute dst); 


图 20-14 route_output 函数 : 将 结果 传递 给 raw_input 
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309 if (rp) 

310 rp-»rcb proto.sp family = PF ROUTE; 
311 ) 

312 return (error); 


313 } 
rtsock.c 


图 20-14 ( 续 ) 


19. 返回 错误 或 OK 
276-282 flush 是 该 函数 开头 定义 的 senderr 宏 所 跳 转 的 标号 。 如 果 发 生 了 一 个 错误 ， 错 
误 就 在 rtm_errno 成 员 中 返回 ; 否则 ， 就 设置 RTF_DONE 标 志 。 

20. 释放 拥有 的 路 由 
283-284 ”如 果 拥 有 一 条 路 由 ， 就 要 被 释放 。 如 果 找 到 ， 在 图 20-10 的 开始 位 置 对 rtallocl 
的 调用 拥有 这 条 路 由 。 

21. 没有 进程 接收 报 文 
285-296 SO_USELOOPBACK 揪 口 选项 的 默认 值 为 真 ， 表 示 发 送 进程 将 会 收 到 它 发 送 给 选 路 
插口 的 每 个 选 路 报 文 的 一 个 复制 (如 果 发 送 者 不 接收 一 个 复制 的 报 文 ， 它 就 不 能 收 到 RTM_GET 
返回 的 任何 信息 )。 如 果 没 有 设置 这 个 选项 ， 并 且 选 路 插口 的 总 数 小 于 或 等 于 1， 就 没有 其 他 
进程 接收 报 文 ， 并 且 发 送 者 不 想 要 一 个 复制 报 文 。 缓 存 和 mbuf 链 都 会 被 释放 ， 该 函数 返回 。 

22. 没有 环 回复 制 报 文 的 其 他 监听 者 
297-299 ”至少 有 一 个 其 他 的 监听 者 而 不 是 发 送 进程 不 想 要 一 个 复制 报 文 。 指 针 rp， 上 默认 是 
空 ， 被 设置 成 指向 发 送 者 的 选 路 控制 块 ， 它 也 用 来 作为 发 送 者 不 想 要 复制 报 文 的 一 个 标志 。 

23. 将 缓存 转换 成 mbuf 链 
300-303 缓存 被 转换 成 一 个 nbuf 链 (图 20-6)， 然 后 释放 缓存 。 

24. 避免 环 回 复制 
304-305 如果 设置 了 rp， 则 某 个 其 他 的 进程 可 能 想 要 报 文 ， 但 是 发 送 者 不 想 要 一 个 复制 。 发 
送 者 的 选 路 控制 块 的 sp_fami ly 成 员 被 临时 设置 为 0， 但 是 报 文 的 sp_family(route_proto 
结构 ， 显 示 在 图 19-26 中 ) 有 一 个 PF_ROUTE 的 族 。 这 个 技巧 防止 raw_input 将 结果 的 一 个 复制 
传递 给 发 送 进 程 ， 因 为 raw_input 不 会 将 一 个 复制 传递 给 sp_family 为 0 的 任何 插口 。 

25. 设置 选 路 报 文 的 地 址 族 
306-308 ”如 果 dst 是 一 个 非 空 的 指针 ， 则 那个 插口 地 址 结构 的 地 址 族 成 为 选 路 报 文 的 协议 。 
对 于 Internet 协 议 ， 这 个 值 将 是 PF_INET。 通 过 raw_input， 一 个 复制 被 传递 给 合适 的 监听 者 。 
309-313 如 果 调 用 进程 的 sp_family 成 员 被 临时 设置 为 0， 它 就 被 复位 成 正常 值 ，PF_ROUTE。 


20.6 rt_xaddrs 函 数 


在 将 来 自 进程 的 选 路 报 文 从 mbuf 链 复制 到 一 个 缓存 以 及 将 来 自 进 程 的 比特 掩 码 
(rtm_adqdrs) 复 制 到 rt_agddrinfo 结 构 的 rti_info 成 员 之 后 ， 只 从 route_output 中 调 
用 一 次 rt_xaddrs 函 数 ( 图 20-8)。rt_xaqddrs 的 目的 是 获取 这 个 比特 掩 码 ， 并 且 设 置 
rti_info 数 组 的 指针 ， 使 之 指向 缓存 中 相应 的 地 址 。 图 20-15 显 示 了 这 个 函数 。 

330-340 指针 数组 被 设置 成 (， 因 此 ， 所 有 在 比特 掩 码 中 不 出 现 的 地 址 结构 的 指针 都 将 是 空 。 
341-347 ”测试 比特 掩 码 中 8 个 (RTM_MAX) 可 能 比特 的 每 一 个 (如 果 设 置 )， 将 相应 于 插口 地 址 
结构 的 一 个 指针 存 到 rti_info 数 组 中 。ADVANCE 宏 以 插口 地 址 结构 的 sa_1en 字 段 为 参数 ， 
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上 舍 入 为 4 个 字 节 的 倍数 ， 相 应 地 增加 指针 cp。 








330 #define ROUNDUP(a) \ . risock.c 
331 ((a) » 0? (1 + (((a) - 1) | (sizeof(long) - 1))) : sizeof (long)) 
332 4&define ADVANCE(x, n) (x += ROUNDUP((n)-»s5a len)) 
333 static void 
334 rt, xaddrs(cp, cplim, rtinfo) 
335 caddr t cp, cplim; 
336 struct rt addrinfo *rtinfo; 
337 ( 
338 Struct sockaddr *sa; 
339 int i; 
340 bzero(rtinfo-»rti info, sizeof(rtinfo-»rti info)); 
341 for (i = 0; (i < RTAX MAX) && (cp < cplim); i++) ( 
342 if ((rtinfo-»rti, addrs & (1 << i)) == 0) 
343 continue; 
344 rtinfo-»rti info[i] = sa = (struct sockaddr *) cp; 
345 ADVANCE (cp, sa); 
346 } 
347 } 
rtsock.c 
图 20-15 rt_xaddrs 国 数 : 将 指针 填 入 rti_info 数 组 
20.7 rt setmetricsP E 


这 个 函数 在 route_output 中 调用 了 两 次 : 增加 一 条 新 路 由 时 和 改变 一 条 已 经 存在 的 路 
由 时 。 来 自 进程 的 选 路 报 文 的 rtm_inits 成 员 说 明了 进程 想 要 初始 化 rtm_rmx 数 组 中 的 哪 


些 度量 。 比 特 掩 码 中 的 比特 的 值 显示 在 图 20-13 中 。 
请 注意 ，rtm_addrs 和 rtm_inits 都 是 来 自 进程 的 报 文中 的 比特 掩 码 ， 


前 者 说 明了 接 


下 来 的 插口 地 址 结构 ， 而 后 者 说 明 哪 些 度量 将 被 初始 化 。 为 了 节省 空间 ， 在 rtm_addrs 中 没 

有 设置 比特 的 插口 地 址 结构 也 不 会 出 现在 选 路 报 文中 。 但 是 整个 rt_metrics 总 是 以 定 长 的 

rt_msghdr 结 构 的 形式 出 现 一 一 在 rtm_inits 中 没有 设置 比特 的 数组 成 员 将 被 忽略 。 
图 20-16 显 示 了 rt_setmetrics 函 数 。 


- rtsock.c 
314 void 
315 rt setmetrics(which, in, out) 
316 u long which; 
317 struct rt metrics *in, *out; 
318 ( 
319 Kdefine metric(f, e) if (which & (f)) out-»e = in-»e; 
320 metric(RTV RPIPE, rmx recvpipe); 
321 metric(RTV SPIPE, rmx sendpipe);:; 
322 metric(RTV SSTHRESH, rmx ssthresh); 
323 metric(RTV RTT, rmx rtt); 
324 metric(RTV RTTVAR, rmx rttvar); 
325 metric(RTV HOPCOUNT, rmx, hopcount); 
326 metric(RTV MTU, rmx mtu); 
327 metric(RTV EXPIRE, rmx expire); 
328 #undef metric 
329 ) rtsock.c 





图 20-16 rt_setmetrics 国 数 : 设置 rt_metrics 结 构 中 的 成 员 
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314-318 which 参数 总 是 进程 的 选 路 报 文 的 rtm_inits 成 员 。in 指 向 进程 的 rt_ 
metrics 结 构 ， 而 out 指 向 将 要 创建 或 修改 的 路 由 表 项 的 rt_metrics 结 构 。 

319-329 测试 比特 掩 码 中 8 比特 的 每 一 比特 ， 如 果 该 比特 被 设置 ， 就 复制 相应 的 度量 。 请 注意 
当 使 用 RTM_ADD 创 建 一 个 新 的 路 由 表 项 时 ，route_output 调 用 了 人 rtrequest， 后 者 将 整个 
路 由 表 项 设置 为 0( 图 19-9)。 因 此 ， 在 选 路 报 文中 ， 进 程 没 有 说 明 的 任何 度量 ， 其 默认 值 都 是 0。 


20.8 raw_input 


向 一 个 进程 发 送 的 所 有 选 路 报 文 一 一 包括 由 内 核 产生 的 和 由 进程 产生 的 都 被 传递 给 
raw_input， 后 者 选择 接收 这 个 报 文 的 进程 。 图 18-11 总 结 了 调用 raw_input 的 四 个 函数 。 

当 创 建 一 个 选 路 插口 时 ， 族 总 是 PF_ROUTE; 而 协议 ，socket 的 第 三 个 参数 ， 可 能 为 0， 
表示 进程 想 要 接收 所 有 的 选 路 报 文 ;或 者 是 一 个 如 同 AF_INET 的 值 ， 限 制 插口 只 接收 包含 指 
定 协议 族 地 址 的 报 文 。 为 每 个 选 路 插口 创建 一 个 选 路 控制 块 (20.3 节 )， 这 两 个 值 分 别 存 储 在 
rcb_proto 结 构 的 sp_family 和 sp_protocol 成 员 中 。 

图 20-17 显 示 了 raw_input 了 全数。 


51 void raw usrreq.c 


52 raw input(m0, proto, src, dst) 
53 struct mbuf *m0; 

54 struct sockproto *proto; 

55 struct sockaddr *src, *dst; 








56 ( 

57 struct rawcb *rp; 

58 struct mbuf *m - m0; 

59 int Sockets = 0; 

60 struct socket *last; 

61 last = 0; 

62 for (rp - rawcb.rcb next; rp !- &rawcb; rp - rp-»rcb next) i 
63 if (rp-»rcb proto.sp family !- proto-»sp family) 
64 continue; 

65 if (rp-»rcb,proto.sp protocol && 

66 rp-»rcb proto.sp protocol !- proto-»sp protocol) 
67 continue; 

68 /* 

69 * We assume the lower level routines have 

70 * placed the address in a canonical format 

71 * suitable for a structure comparison. 

72 * 

73 * Note that if the lengths are not the same 

74 * the comparison will fail at the first byte. 
75 */ 

76 $define equal(al, a2) \ 

77 (bcmp((caddr t)(al), (caddr t)(a2), al-»sa len) == 0) 
78 if (rp-»rcb laddr && !equal(rp-»rcb laddr, dst)) 
79 continue; 

80 if (rp-»rcb faddr && !equal(rp-»rcb faddr, src)) 
81 — continue; 

82 if (last) ( 

83 struct mbuf *n; 

84 if (n = m copy(m, 0, (int) M COPYALL)) ( 

85 if (sbappendaddr(&last-»so rcv, src, 

86 n, (struct mbuf *) 0) == 0) 


图 20-17 raw inputiKÉ: 将 选 路 报 文 传递 给 0 个 或 多 个 进程 
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87 /* should notify about lost packet */ 
88 m freem(ín); 
89 else ( 
90 sorwakeup(last); 
91 sockets++; 
92 H 
93 } 
94 ) 
95 last = rp-»rcb,socket; 
96 } 
97 if (last) { 
98 if (sbappendaddr (&last->so_rcv, src, 
99 m, (struct mbuf *) 0) == 0) 
100 m freem(m); 
101 else ( 
102 sorwakeup(last); 
103 Sockets44; 
104 ) 
105 ) else 
106 m freem(ím); 
107 ) 
Taw, usrreq.c 


图 20-17 (£&) 


51-61 在 我 们 所 看 到 的 四 个 对 raw_input 的 调用 中 ，proto、src 和 dst 参 数 指向 三 个 全 
局 变量 route_proto、route_src 和 route_dst， 这 些 变量 都 如 同 图 19-26 所 示 的 那样 被 
声明 和 初始 化 。 

1. 比较 地 址 族 和 协议 
62-67 ”for 循环 遍历 每 个 选 路 控制 块 来 查找 一 个 匹配 。 控 制 块 里 的 族 (一 般 是 PF_ROUTE) 必 
须 与 sockproto 结 构 的 族 相 匹 配 ， 否 则 这 个 控制 块 就 被 略 过 。 接 下 来 ， 如 果 榨 制 块 里 的 协议 
(socket 的 第 三 个 参数 ) 非 空 ， 它 必须 匹配 sockproto 结 构 的 族 ; 否则 ， 这 个 报 文 被 略 去 。 
因此 ， 以 0 协议 创建 了 一 个 选 路 播 口 的 进程 将 收 到 所 有 的 选 路 报 文 。 

2. 比较 本 地 的 和 外 部 的 地 址 
68-81 如 果 指 定 了 的 话 ， 这 两 个 测试 比较 了 控制 块 里 的 本 地 地 址 和 外 部 地 址 。 目 前 ， 进 程 
不 能 设置 控制 块 的 rcb_1laddr 或 者 rcb_faddr 成 员 。 一 般 来 说 ， 进 程 使 用 bind 设 置 前 者 ， 
用 connect 设 置 后 者 ， 但 对 于 Net/3 中 的 选 路 播 口 这 是 不 可 能 的 。 作 为 替代 ， 我 们 将 看 到 
route_usrreq 将 播 蝇 固定 地 连接 到 *oute_src 播 口 地址 结构 ， 这 是 可 行 的 ， 因 为 它 总 是 
这 个 函数 的 src 参 数 。 

3. 将 报 文 添加 到 插口 的 接收 缓存 中 
82-107 如 果 1last 非 空 ， 它 指向 最 近 看 到 的 应 该 接收 这 个 报 文 的 socket 结 构 。 如 果 这 个 变 
量 非 空 ， 就 使 用 m_copy 和 sbappendaddr 将 这 个 报 文 的 一 个 复制 添加 到 那个 插口 的 接收 组 
存 中 ， 并 且 在 这 个 接收 缓存 等 待 的 任何 进程 都 会 被 唤醒 。 然 后 ，last 被 设置 成 指向 在 以 前 的 
测试 中 刚刚 匹配 的 桂 口 。 使 用 1ast 是 为 了 在 只 有 一 个 进程 接收 报 文 的 情况 下 避免 调用 
m_copy( 一 个 代价 昂贵 的 操作 )。 

如 果 有 AN 个 进程 接收 报 文 ， 那 么 前 N-1 个 接收 一 个 复制 报 文 ， 最 后 一 个 进程 收 到 的 是 这 个 
报 文本 身 。 

在 这 个 函数 里 递增 的 socket 变 量 并 没有 被 用 到 。 因 为 只 有 当 报 文 被 传递 给 一 个 进程 后 它 
才 会 被 递增 ， 所 以 ， 如 果 在 函数 的 结尾 这 个 变量 的 值 是 0， 就 表示 没有 进程 接收 该 报 文 (但 是 
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变量 值 没有 在 任何 地 方 保存 )。 
20.9 route_usrreq 函 数 


route_usrred 是 选 路 协议 的 用 户 请 求 函数 。 它 被 不 同 的 操作 调用 。 图 20-18 显 示 了 这 个 
函数 。 





64 int risock.c 
65 route usrreqí(so, req, m, nam, control) 

66 struct socket *so; 

67 int req; 

68 struct mbuf *m, *nam, *control; 

69 { 

70 int error = 0; 

71 struct rawcb *rp = sotorawcb(so); 

72 int 8; 

73 if (req == PRU ATTACH) ( 

74 MALLOC(rp, struct rawcb *, sizeof(*rp), M PCB, M WAITOK); 
75 if (so-»so pcb = (caddr t) rp) 

76 bzero(so-»so pcb, sizeof(*rp)); 

77 } 

78 if (req == PRU, DETACH && rp) { 

79 int af = rp-»rcb,proto.sp protocol; 
80 if (af == AF. INET) 

81 route cb.ip count--; 

82 else if (af -- AF NS) 

83 route, cb.ns,count--; 

84 else if (af == AF ISO) 

85 route cb.iso count--; 

86 route, cb.any. count--; 

87 } 

88 s = Splnet(}; 

89 error = raw usrreq(so, req, m, nam, control); 
90 rp = sotorawcb(so); 

91 if (req == PRU ATTACH && rp) ( 

92 int af = rp-»rcb proto.sp.protocol; 
93 if (error) ( 

94 free((caddr t) rp, M PCB); 

95 spix(s): 

96 return (error); 

97 ) 

98 if (af == AF.INET) 

99 route,.cb.ip.count4*; 
100 else if (af == AF. NS) 
101 route cb.ns count4*; 

102 ~ else if (af == AF. ISO) 

103 route cb.iso count4*; 
104 route cb.any, count«*; 

105 rp-»rcb faddr = &route, src; 

106 soisconnected (so); 

107 so-»so options |= SO USELOOPBACK; 

108 ) 

109 splx(s); 

110 return lerror); 
11 oo 0 MM — — risock.c 


图 20-18 route usrreqHWZE: 处 理 PRU_xxx 请 求 
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1. PRU, ATTACH: 分 配 控制 块 
64-77 当 进 程 调用 socket 时 ， 就 会 发 出 PRU_ATTACH 请 求 。 为 一 个 选 路 控制 块 分 配 内 存 。 
MALLOC 运 回 的 指针 保存 在 socket 结 构 的 so_pcb 成 员 中 。 如 果 分 配 了 内 存 ，rawcb 结 构 被 
设置 成 0。 、 

2. PRU. DETACH: 计数 器 递减 
78-87 close 系统 调用 发 出 PRU_DETRACH 请 求 。 如 果 socket 结 构 指向 一 个 协议 控制 块 ， 
route_cb 结 构 的 计数 器 中 有 两 个 被 减 1: 一 个 是 any_ceunt; 另 一 个 是 基于 该 协议 的 计数 
a. 

3. 处 理 请 求 
88-90 图 数 raw_usrreq 被 调用 来 进一步 处 理 PRU_xxx 请 求 。 

4. 计数 器 递增 
91-104 如 果 请 求 是 PRU_ATTACH， 并 且 插 口 指向 一 个 选 路 控制 块 ， 就 要 检 棱 
raw_usrreq 是 否 返 回 一 个 错误 。 然 后 ，route._cb 结 构 的 计数 器 中 的 两 个 被 递增 : 一 个 是 
any_count， 另 一 个 是 基于 该 协议 的 计数 器 。 

5. 连接 插口 
105-106 选 路 控制 块 里 的 外 部 地 址 被 设置 成 route_src。 这 将 永久 地 连接 到 新 的 插口 来 接 
收 PF_ROUTE 族 的 选 路 报 文 。 

6. 默认 情况 下 使 能 SO_USELOOPBACK 
107-111 使 能 SO0_USELOOPBACK 插 口 选 项 。 这 是 一 个 默认 使 能 的 插口 选项 一 一 其 他 所 有 的 
选项 默认 都 被 禁止 。 l 


20.10 raw usrreqif/ 


raw_usrreq 完 成 在 选 路 域 中 用 户 请 求 处 理 的 大 部 分 工作 。 在 上 一 节 中 它 被 
route_usrreqg 国 数 所 调用 。 用 户 请求 的 处 理 被 划分 成 这 两 个 国 数 ， 是 因为 其 他 的 一 些 协议 
(例如 OSI CLNP) 调 用 raw_usrreq 而 不 是 route_usrreq。raw_usrreq 并 不 是 想 要 成 为 
一 个 协议 的 pr_usrreq 函 数 ， 相 反 ， 它 是 一 个 被 不 同 的 pr._usrreq 函 数 调 用 的 公共 的 子 例 
程 。 

图 20-19 显 示 了 raw_usrreq 函 数 的 开始 和 结尾 。 其 中 的 switch 庄 句 体 在 该 图 后 面 的 图 
中 单独 讨论 。 

1. PRU_CONTROL 请 求 是 不 合法 的 
119-129 PRU_CONTROL 请 求 来 自 于 ioct1 系 统 调 用 ， 在 路 由 选择 域 中 不 被 支持 。 

2. 控制 信息 不 合法 
130-133 ”如 果 进 程 传递 控制 信息 (使 用 sendmsg 系 统 调用 )， 就 会 返回 一 个 错误 ， 央 为 路 由 
选择 域 中 不 使 用 这 个 可 选 的 信息 。 

3. 插口 必须 有 一 个 控制 块 
134-137 如 果 socket 结 构 没 有 指向 一 个 选 路 控制 块 ， 就 返回 一 个 错误 。 如 果 创 建 了 一 个 
新 的 插口 ， 调 用 者 ( 即 route_usrredq) 有 责任 在 调用 这 个 函数 之 前 分 配 这 个 控制 块 ， 并 且 将 
指针 保存 在 so_pcb 成 员 中 。 

262-269 这 个 switch 语 名 的 aefault 子 句 处理 case 子 句 役 有 处 理 的 两 个 请 求 : PRU_BIND 
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和 PRU_CONNECT。 这 两 个 请 求 的 代码 是 提供 的 ， 但 在 Net/3 中 被 注释 掉 了 。 因此， 如 果 在 一 
个 选 路 播 口 上 发 出 bind 或 connect 系 统 调 用 ， 就 会 引起 一 个 内 核 的 告警 (panic)。 这 是 一 个 程 
序 错误 (bug)。 幸 运 的 是 创建 这 种 类 型 的 插口 需要 有 超级 用 户 的 权限 。 


119 int raw_usrreq.c 
120 raw_usrreq(so, req, m, nam, control) 
121 struct socket *so; 
122 int ~ req: 
123 struct mbuf *m, *nam, *control; 
124 ( 
125 struct rawcb *rp = sotorawcb(so); 
126 int error - 0; 
127 int len; 
128 if (req -- PRU CONTROL) 
129 return (EOPNOTSUPP); 
130 if (control && control-»m len) ( 
131 error - EOPNOTSUPP; 
132 goto release; 
133 } 
134 if {rp == 0) { 
135 error - EINVAL; 
136 goto release; 
137 } 
138 switch (req) { 
262 default: 
263 panic("raw usrreq*); 
264 } 
265 release: 
266 if (m != NULL) 
267 m freem(m); 
268 return (error); 
269 } 
raw usrreg.c 


图 20-19 raw_usrreg Jf 
我 们 现在 讨论 单个 的 case 语 句 。 图 20-20 显 示 了 对 PRU_ATTACH 和 PRU_DETACH 请 求 的 


处 理 。 
139-148 PRU_ATTACH 请 求 是 socket 系 统 调用 的 一 个 结果 。 一 个 选 路 插口 只 能 由 一 个 超 
级 用 户 的 进程 创建 。 


149-150 ”函数 raw_attach( 图 20-24) 将 控制 块 链 接 到 双向 链接 列表 中 。nam 参 数 是 
socket 的 第 三 个 参数 ， 被 存储 在 控制 块 中 。 
151-159 PRU_DETACH 是 由 close 系 统 调用 发 出 的 请 求 。 对 一 个 空 的 rp 指针 的 测试 是 多 余 
的 ， 因 为 在 switch 语 句 之 前 已 经 进行 过 这 个 测试 了。 
160-161 raw_detach( 图 20-25) 从 双向 链接 表 中 删除 这 个 控制 块 。 

图 20-21 显 示 了 PRU_CONNECT2、PRU_DISCONNECT 和 PRU__SHUTDOWN 请 求 的 处 理 。 
186-188 PRU_CONNECT2 请 求 来 自 于 socketpair 系 统 调用 ， 在 路 由 选择 域 中 不 被 支持 。 
189-196 因为 一 个 选 路 插口 总 是 连接 的 (图 20-18)， 所 以 PRU_DISCONNECT 请 求 在 PRU_DETACH 请 
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139 7* Taw usrreq.c 
140 * Allocate a raw control block and fill in the 
141 * necessary info to allow packets to be routed to 
142 * the appropriate raw interface routine. 
143 */ 
144 Case PRU_ATTACH: 
145 if ((so-»so state & SS PRIV) == 0) ( 
146 error - EACCES; 
147 break; 
148 } 
149 error = raw attachí(so, (int) nam); 
150 break; 
151 /* 
152 * Destroy state just before socket deallocation. 
153 * Flush data or not depending on the options. . 
154 */ 
155 Case PRU_DETACH: 
156 if (rp == 0) { 
157 error = ENOTCONN; 
158 break; 
159 } 
160 raw_detach (rp); 
161 break; 
raw_usrreq.c 


图 20-20 raw usrreqat ZEE: PRU_ATTACH 和 PRU_DETACH 请 求 


求 之 前 由 close 发 出 。 播 口 必须 已 经 和 一 个 外 部 地 址 相连 接 ， 这 对 于 一 个 选 路 插口 来 说 总 是 
成 立 的 。raw_disconnect 和 soisdisconnected 完 成 这 个 处 理 。 

197-202 当 参 数 指定 在 这 个 插口 上 没有 更 多 的 写 操 作 时 ，s hutdown 系 统 调用 发 出 
PRU_SHUTDOWN 请 求 。socantsendmore 禁 止 以 后 的 写 操 作 。 


186 case PRU, CONNECT2: raw_usrreq.c 
187 error = EOPNOTSUPP; 

188 goto release; 

189 case PRU_DISCONNECT: 

190 if (rp->rcb_faddr == 0) ( 

191 error - ENOTCONN; 

192 break; 

193 ) 

194 raw disconnect (rp); 

195 soisdisconnected(so); 

196 break; 

197 /* 

198 * Mark the connection as being incapable of further input. 
199 */ 

200 Case PRU, SHUTDOWN: 

201 Socantsendmore (so); 

202 break; 


LLL ————— M —- nw usrreg.c 
图 20-21 raw usrreqH: PRU CONNECT2. PRU DISCONNECTAHIPRU SHUTDOWNIRBGK 


对 一 个 选 路 插口 最 常见 的 请 求 : PRU SEND. PRU, ABORTAÜPRU. SENSE S zr EHR20-22 m . 
203-217 当 进 程 向 插口 写 时 ，sosend 发 出 了 PRU_SEND 请 求 。 如 果 指 定 了 一 个 nam 参 数 ， 
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203 7* raw_usrreg.c 
204 * Ship a packet out. The appropriate raw output 
205 * routine handles any massaging necessary. 
206 */ 
207 Case PRU,SEND: 
208 if (nam) ( 
209 if (rp-»rcb faddr) ( 
210 error - EISCONN; 
211 break; 
212 } 
213 rp-»rcb faddr = mtod(nam, struct sockaddr *); 
214 ) else if (rp-»rcb faddr == 0) ( 
215 error - ENOTCONN; 
216 break; 
217 } 
218 error = (*so-»so proto-»pr output) (m, so); 
219 m - NULL; 
220 if (nam) 
221 rp-»rcb faddr - 0; 
222 break; 
223 case PRU, ABORT: 
224 raw disconnect (rp); 
225 sofree(so); 
226 soisdisconnected(so); 
227 break; 
228 case PRU, SENSE: 
229 /* 
230 * stat: don't bother with a blocksize. 
231 */ 
232 return (0); 
raw usrreg.c 





图 20-22 raw usrreqtHRÉ: PRU, SEND. PRU ABORTAIPRU SENSETSSK 
即 进程 使 用 sendto 或 者 sendmsg 指 定 了 一 个 上 且 的 地 址 ， 就 会 返回 一 个 错误 ， 因 
route_usrreq 总 是 为 一 个 选 路 插口 设置 rcb_faddr。 
218-222 wm 指向 的 mbuf 链 中 的 信息 被 传递 给 协议 的 pr_output 函 数 ， 也 就 是 


Æ 


route output. 


223-227 如 果 发 出 了 . -个 PRU_ABORT 请 求 ， 则 该 控制 块 被 断 开 连接 ， 播 口 被 释放 ， 然 后 被 
BF Ei. 
228-232 fstat 系 统 调用 发 出 PRU_SENSE 请 求 。 函 数 返 回 OK。 

图 20-23 显 示 了 剩 下 的 PRU_xxx 请 求 。 





233 j* raw_usrreq.c 
234 * Not supported. 

235 */ 

236 case PRU, RCVOOB: 

237 case PRU, RCVD: 

238 return (EOPNOTSUPP); 

239 case PRU, LISTEN: 

240 case PRU ACCEPT: 

241 case PRU, SENDOOB: 

242 error - EOPNOTSUPP; 


图 20-23 raw_usrreg 函 数 : 最 后 部 分 
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243 break; 

244 case PRU, SOCKADDR: 

245 if (rp-»rcb laddr == 0) ( 

246 error - EINVAL; 

247 break; 

248 ) 

249 len - rp-»rcb laddr-»sa len; 

250 bcopy((caddr t) rp-»rcb laddr, mtod(nam, caddr t), (unsigned) len); 
251 nam-»m len - len; 

252 break; 

253 case PRU PEERADDR: 

254 if (rp-»rcb faddr -- 0) ( 

255 error - ENOTCONN; 

256 break; 

257 ) 

258 len = rp-»rcb, faddr-»sa len; 

259 bcopy((caddr t) rp-»rcb faddr, mtod(nam, caddr t), (unsigned) len); 
260 nam-»m len - len; 

261 break; 


Taw usrreq.c 


图 20-23 (4%) 


233-243 这 五 个 请 求 不 被 支持 。 

244-261 PRU_SOCKADDR 和 PRU_PEERADDR 请 求 分 别 来 自 于 getsockname 和 getpeername 系 统 调 
用 。 前 者 总 是 返回 一 个 错误 ， 因 为 设置 本 地 地 址 的 bind 系 统 调用 在 路 由 选择 域 中 不 被 支持 。 后 者 
总 是 返回 插曲 地 址 结构 route_src 的 内 容 ， 这 个 内 容 是 由 route_usrreq 作 为 外 部 地 址 设置 的 。 


20.11 raw attach、raw_detach 和 raw_disconnect 函 数 


raw_attcach 国 数 ， 显 示 在 图 20-24 中 ， 被 raw_input 调 用 来 完成 PRU_RATTACH 请 求 的 
处 理 。 





7 raw_cb.c 
49 int 
50 raw_attach (so, proto) 
51 struct socket *so; 
52 int proto; 
53 ( 
54 struct rawcb *rp - sotorawcb(so); 
55 int error; 
56 /* 
57 * It is assumed that raw attach is called 
58 * after space has been allocated for the 
59 * rawcb. 
60 */ 
61 if (rp -- 0) 
62 return (ENOBUFS); 
63 if (error = soreserve(so, raw sendspace, raw recvspace)) 
64 return (error); 
65 rp-»rcb socket - so; 
66 rp-»rcb proto.sp, family = so-»so proto-»pr domain-»dom, family; 
67 rp-»rcb proto.sp. protocol = proto; 
68 insque(rp, &rawcb); 
69 return (0); 
70 ) raw cb.c 


图 20-24 raw attach% 
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49-64 调用 者 必须 已 经 分 配 了 原始 的 协议 控制 块 。soreserve 将 发 送 和 接收 缓存 的 高 水 位 

标记 设置 为 8192。 这 对 于 选 路 报 文 应 该 是 绰绰有余 了 。 

65-67 socket 结 构 的 一 个 指针 和 dom_family( 即 图 20-1 中 用 于 选 路 域 的 PF_ROUTE) 以 及 

proto 参 数 (socket 调 用 的 第 三 个 参数 ) 一 起 被 存储 到 协议 控制 块 中 。 

68-70 insque 将 这 个 控制 块 加 入 到 由 全 局 变量 rawcb 作 为 头 指 针 的 双向 链接 表 的 前 面 。 
raw_detach 国 数 ， 显 示 在 图 20-25$ 中 ， 被 raw_input 调 用 来 完成 PRU_DETACH 请 求 的 

处 理 。 


75 void nno chc 
76 raw detach(rp) 
77 struct rawcb *rp; 
78 ( 
79 Struct socket *so - rp-»rcb socket; 
80 so->so_pcb = 0; 
81 sofree(so); 
82 remque (rp); 
83 free((caddr t) (rp), M PCB); 
84 ) 
raw cb.c 


图 20-25 raw_detachk 


75-84 socket 结构 中 的 so_pcb 指 针 被 设置 成 空 ， 然 后 释放 这 个 插口 。 使 用 remque 从 双 

向 链接 表 中 删除 该 控制 块 ， 使 用 free 来 释放 被 控制 块 占用 的 内 存 。 
raw_disconnect 人 函数 ， 显 示 在 图 20-26 中 ， 被 raw_input 调 用 来 完成 PRU_ 

DISCONNECT 和 PRU_ABORT 请 求 的 处 理 。 

88-94 如 果 该 插口 没有 引用 一 个 描述 符 ，raw_detach 释 放 访 插口 和 控制 块 。 


88 void 
89 raw disconnect (rp) 
90 struct rawcb *rp; 


raw cb.c 


91 ( 

92 if (rp-»rcb socket-»so state & SS NOFDREF) 
93 raw detach(rp); 

94 } 


raw cbc . 
图 20-26 raw disconnectiKJk 


20.12 小 结 


一 个 选 路 插口 是 PF_ROUTE 域 中 的 一 个 原始 插口 。 选 路 插口 只 能 被 一 个 超级 用 户 进程 创 
建 。 如 果 一 个 没有 权限 的 进程 想 要 读 内 核 包 含 的 选 路 信息 ， 可 以 使 用 选 路 域 所 支持 的 sysct1 
系统 调用 (我 们 在 前 一 章 中 描述 过 )。 

在 本 章 中 ， 我 们 第 一 次 碰 到 了 与 插口 相 联 系 的 协议 控制 块 (PCB)。 在 选 路 域 中 ， 一 个 专门 
的 zawcb 包 含 了 有 关 选 路 插口 的 信息 : 本 地 和 外 部 的 地 址 、 地 址 族 和 协议 。 我 们 将 在 第 22 章 
中 看 到 用 于 UDP、TCP 和 原始 插口 的 更 大 的 Internet 协 议 控 制 块 (inpcb)。 然 而 概念 是 相同 
的 : _ socket 结构 被 插口 层 使 用 ， 而 PCB， 一 个 rawcb 或 一 个 inpcb， 被 协议 层 使 用 。 
socket 结 构 指 向 该 PCB， 后 者 也 指向 前 者 。 
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route_output 函 数 处 理 进程 可 以 发 出 的 五 个 请 求 。 依 赖 于 协议 和 地 址 族 ，raw_input 将 
一 个 选 路 报 文 发 送 给 一 个 或 多 个 选 路 插曲。 对 一 个 选 路 插口 的 不 同 的 PRU_xxx 请 求 由 
raw_usrred 和 route_usrredq 处 理 。 在 后 面 的 章节 中 ， 我 们 将 磁 到 另外 的 xxx_usrreg 国 
数 ， 每 个 协议 (UDP 、TCP 和 原始 IP) 对 应 一 个 ， 每 个 函数 都 由 一 个 switch 语 句 组 成 用 来 处 理 
每 一 个 请 求 ， 
习题 | 
20.4 当 进 程 向 一 个 选 路 插口 写 一 个 报 文 时 ， 列 出 两 种 进程 可 以 从 route_output 收 到 
返回 值 的 方法 。 哪 种 方法 更 可 靠 ? 
202 因为 routesw 结 构 的 pr._protocol 成 员 为 0， 所 以 当 进 程 对 socket 系 统 调用 指 
定 了 一 个 非 0 的 protocol 参 数 时 ， 会 发 生 什么 情况 ? 
20.3 路 由 表 中 的 路 由 (和 ARP 项 不 同 ) 永 远 不 会 超时 。 试 在 路 由 上 实现 一 个 超时 机 制 。 


第 21 章 ARP: 地 址 解析 协议 


21.1 介绍 


地 址 解析 协议 (ARP) 用 于 实现 IP 地 址 到 网 络 接口 硬件 地 址 的 上 映射。 常见 的 以 太 网 网 络 接口 
硬件 地 址 长 度 为 48 bit。ARP 同 时 也 可 以 工作 在 其 他 类 型 的 数据 链 路 下 ， 但 在 本 章 中 ， 我 们 只 
考虑 将 PP 地址 上 映射 到 48 bit 的 以 太 网 地 址 。ARP 在 RFC 826 [Plummer 1982] 中 定义 。 

当 某 主机 要 向 以 太 网 中 另 一 台 主 机 发 送 IP 数 据 时 ， 它 首先 根据 目的 主机 的 IP 地 址 在 ARP 高 
速 缓存 中 查询 相应 的 以 太 网 地 址 ，ARP 高 速 缓存 是 主机 维护 的 一 个 卫 地 址 到 相应 以 太 网 地 址 
的 映射 表 。 如 果 查 到 匹配 的 结 点 ， 则 相应 的 以 太 网 地 址 被 写 人 以 太 网 帧 首部 ， 数 据 报 被 加 入 
到 输出 队列 等 候 发 送 。 如 果 查 询 失 败 ，ARP 会 先 保留 待 发 送 的 下 数据 报 ， 然 后 广播 一 个 询问 
目的 主机 硬件 地 址 的 ARP 报 文 ， 等 收 到 回答 后 再 将 下 数据 报 发 送出 去 。 

以 上 只 是 简要 描述 了 ARP 协 议 的 基本 工作 过 程 ， 下 面 我 们 将 结合 Net/3 中 的 ARP 实 现 来 详 
细 描 述 其 具体 细节 。 卷 1 的 第 4 章 包 含 了 ARP 的 例子 。 


21.2 ARP 和 路 由 表 


NetV3 中 ARP 的 实现 是 和 路 由 表 紧 密 关联 的 ， 这 也 是 为 什么 我 们 要 在 描述 路 由 表 结 构 之 后 
再 来 讲解 ARP 的 原因 。 图 21-1 显 示 了 本 章 中 我 们 描述 ARP 要 用 到 的 一 个 例子 。 整 个 图 是 与 本 
书 中 用 到 的 网 络 实例 相对 应 的 ， 它 显示 了 bsdi 主机 上 当前 ARP 缓 存 的 相关 结构 。 其 中 Ifnet、 
ifaddar 和 in_ifaddr 结 构 是 由 图 3-32 和 图 6-5 简 化 而 来 的 ， 所 以 在 这 里 忽略 了 在 第 3 章 和 第 6 
章 中 描述 过 的 这 三 个 结构 中 的 某 些 细 节 。 例 如 ， 图 中 没有 画 出 在 两 个 ifaddr 结 构 之 后 的 
sockaddr_d1l 结 构 而 仅仅 是 概述 了 这 两 个 结构 中 的 相应 信息 。 同 样 ， 我 们 也 仅仅 是 概 
述 了 三 个 in_ifaddr 结 构 中 的 信息 。 

下 面 ， 我 们 简要 概述 图 中 的 有 关 要 点 。 细 节 部 分 将 随 着 本 章 的 进行 而 详细 展开 。 

1) 11info_arp 结 构 的 双向 链表 包含 了 每 一 个 ARP 已 知 的 硬件 地 址 的 少量 信息 。 同 名 全 
局 变量 11info_arp 是 该 链表 的 头 结 点 ,图 中 没有 画 出 第 一 位 的 1a_prev 指 针 指向 最 后 一 项 ， 
最 后 一 项 的 1a_next 指 针 指 向 第 一 项 。 该 链表 由 ARP 时 钟 函数 每 隔 5 分 钟 处 理 一 次 。 

2) 每 一 个 已 知 硬件 地 址 的 IP 地 址 都 对 应 一 个 路 由 表 结 点 (rtentry 结 构 )。11linfo_arp 
结构 的 1a_rt 指 针 成 员 用 来 指向 相应 的 rtentry 结 构 ， 同 样 地 ，rtentry 结 构 的 
rt_l11info 指 针 成 员 指 向 11info_arp 结 构 。 图 中 对 应 主机 sun(140.252.13.33)、 
svr4(140.252.13.34) 和 bsqdi(140.252.13.35) 的 三 个 路 由 表 结 点 各 自 具 有 相应 的 11info_arp 
结构 。 如 图 18-2 所 示 。 

3) 而 在 图 的 最 左边 第 四 个 路 由 表 结 点 则 没有 对 应 的 11info_arp 结 构 ， 该 结 点 对 应 于 本 
地 以 太 网 (140.252.13.32) 的 路 由 项 。 该 结 点 的 rt_flags 中 设置 了 C 比 特 ， 表 明 该 结 点 是 被 用 
来 复制 形成 其 他 结 点 的 。 设 置 接口 卫 地 址 功能 的 jn_ifinit 函 数 (图 6-19) 通 过 调用 rtinit 
函数 来 创建 该 结 点 。 其 他 三 个 结 点 是 主机 路 由 结 点 (H 标 志 )， 并 由 bsdi 向 其 他 机 器 发 送 数据 
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时 通过 ARP 间 接 调用 路 由 相关 函数 产生 的 (LL 标志 )。 
.4) rtentry 结 构 中 的 rt_gateway 指 针 成 员 指向 一 个 sockaddr_qdl 结 构 变 量 。 如 果 保 在 
物理 地 址 长 度 的 结构 sdl_alen 成 员 为 6， 那 入 sockadqdr_q1 结 构 就 包含 相应 的 硬件 地 址 信息 。 
5) 路 由 结 点 变量 的 rt_ifp 成 员 的 相应 指针 成 员 指向 对 应 网 络 设 备 接口 的 1 fnet 结 构 。 
中 间 的 两 个 路 由 结 点 对 应 的 是 以 太 网 上 的 其 他 主机 ， 这 两 个 结 点 都 指向 le_softc[0]。 而 右 
边 的 路 由 结 点 对 应 的 是 bsdi, 指向 环 回 结构 1oif。 因为 rt_ifp.if_output 指 向 输出 函数 ， 
所 以 目的 为 本 机 的 数据 报 被 路 由 至 环 回 接口 。 


llinfo arp() llinfo arp() llinfo arp() llinfo arp() 


into arp: [ianexe — -——e[iasex ianex Jiane 




















la_hold la hold la, hold 
BSockaddr dl() sockaddr dl() sockaddr dl() Sockaddr d1() 








AF LINK 
IFT ETHER 

sdl alen-6 
0:0:c0:c2:9b:26 


AF. LINK 
IFT ETHER 
sdl alen-6 


rn key = 
140.252.13.35 


AF LINK 
IFT ETHER 


AF LINK 

IFT ETHER 
sdl alen-6 
8:0:20:3:f£6:42 






sdl alen-0 























rtentry() 
rn,key = 


140.252.13.34 


rtentry() 


rn key = 
140.252.13.33 


rtentryí) 


rn key = 
140.252.13.32 



















sl softc[0]: 
ifnet() 
index-2 


rmx, expire 
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ifnet: 
















ifnet, addrs: 


IFT ETHER 
0:0:c0:6£:2d:4e 








in ifaddr() 
AF INET 
140.252.13.35 
140.252.13.63 
255.255.255.224 
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in ifaddr() 











140.252.13.66 
140.252.13.65 
255.255.255.224 






图 21-1 ARP 与 路 由 表 和 接口 结构 的 关系 
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6) 每 一 个 路 由 结 点 还 有 指向 相应 的 ijn_ifaddr 结 构 的 指针 变量 (图 6-8 中 指出 了 
in_ifaddr 结 构 内 的 第 一 个 成 员 是 一 个 ifaddr 结 构 ， 因 此 ，rt._ifa 同 样 是 指向 了 ifaddr 
结构 变量 )。 在 本 图 中 ， 我 们 只 显示 一 个 路 由 结 点 的 相应 指向 ， 其 余 的 路 由 结 点 具有 同样 的 性 
质 。 而 一 个 接口 如 1e0， 可 以 同时 设置 多 个 IP 地 址 ， 每 个 IP 地 址 都 有 对 应 的 jn_ifadgdr 结 构 ， 
这 就 是 为 什么 除了 rt_ifp 之 外 还 需要 rt_ifa 的 原因 。 

7) la_hold 成 员 是 指向 mbuf 链 表 的 指针 。 当 要 向 某 个 P 传 送 数 据 报时 ， 就 需要 广播 一 个 
ARP 请 求 。 当 内 核 等 竺 ARP 回答 时 ， 存 放 该 待 发 数据 报 的 mbuf 链 的 头 结 点 的 地 址 信息 就 存放 
在 la_hold 里 。 当 收 到 ARP 回 答 后 ，1a_hold 指 向 的 mbuf 链 表 中 的 IP 数 据 被 发 送出 去 。 

8) 路 由 表 结 点 中 rt_metric 结 构 的 变量 rmx_expire 存 放 的 是 与 对 应 的 ARP 结 点 相关 的 
定时 信息 ， 用 来 实现 删除 超时 (通常 20 分 钟 ) 的 ARP 结 点 。 

在 4.3BSD Reno 中 ， 路 由 表 结构 定义 有 了 很 大 的 变化 ， 但 4.3BSD Reno 和 Net/2. 
4.4BSD 中 依然 定义 有 ARP 缓 让， 只 是 去 除了 作为 单独 结构 的 ARP 缓 存 链表 ， 而 把 
ARP 信 息 放 在 了 路 由 表 结 点 里 。 

在 Net/2 中 ，ARP 表 是 一 个 结构 数组 ， 其 中 每 个 元 素 包 含有 以 下 成 员 : IP 地 址 、 
以 太 网 地 址 、 定 时 器 、 标 志和 一 个 指向 mbuf 的 指针 (类 似 于 图 21-1 中 的 la_hold 成 
员 )。 在 Net3 中 ， 我 们 可 以 看 到 ， 这 些 信息 被 分 散 到 多 个 相互 链接 的 结构 里 。 


21.3 ”代码 介绍 
如 图 21-2 所 示 ， 共 有 包含 9 个 ARP 函 数 的 一 个 C 文 件 和 两 个 头 文件 。 


net/if arp.h arphdr 结 构 的 定义 
netinet/if ether.h 多 个 结构 和 常量 的 定义 
ARPA 






netinet/if_ether.d 





图 21-2 本 章 中 讨论 的 文件 


图 21-3 显 示 了 ARP 函 数 与 其 他 内 核 函 数 的 关系 。 该 图 中 还 说 明了 ARP 函 数 与 第 19 章 中 某 
些 子 函数 的 关系 ， 下 面 将 逐步 解释 这 些 关系 。 


21.3.1 全 局 变量 
本 章 中 将 介绍 10 个 全 局 变量 ， 如 图 21-4 所 示 。 
21.3.2 统计 量 


保存 ARP 的 统计 量 有 两 个 全 局 变量 : arp_inuse 和 arp_allocated， 如 图 21-4 所 示 。 
前 者 用 来 记录 当前 正在 使 用 的 ARP 结 点 数 ， 后 者 用 来 记录 在 系统 初始 化 时 分 配 的 ARP 结 点 数 。 
两 个 统计 数 都 不 能 由 netstat 程 序 输出 ， 但 可 以 通过 调试 器 来 查看 。 

可 以 使 用 命令 arp -a 来 显示 当前 ARP 缓 存 的 信息 ， 该 命令 使 用 sysct1l 系 统 调用 ， 参 数 
如 图 19-36 所 示 。 图 21-5 显 示 该 命令 的 一 个 输出 结果 。 

由 于 图 18-2 中 对 应 多 播 组 224.0.0.1 的 相应 路 由 表 项 设置 了 L 标 志 ， 而 同时 由 于 arp 程 序 查 
询 带 有 RTF_LLINFO 标 志 位 的 ARP 结 点 ， 所 以 该 程序 也 输出 多 播 地 址 。 后 面 我 们 将 解释 为 什 
么 该 表 项 标识 为 “incomplete”， 而 在 它 上 面 的 表 项 是 “permanent”。 
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"t 选 路 插口 
octi jSTOCATFADDR aa BR 
内 核 SS RTM ADD —— 
in ifinit Cip output D RTM DELETE 
. RTM GET 
接收 到 ARP 请 求 /问答 My -i 
9 时 产生 软件 中 断 AR 
ir 
A 
j 
» 
E Carpintr > 
以 太 网 设备 驱动 器 En 每 5 分 名 
Ha FJA e 
2 S 
NE o o£ 
2% J> m 
ZW Ln x 
>= [3 


接口 输出 函数 


(ether output) 


llinfo arp 
arpintrq 

arpt prune 
arpt keep 
arpt down 

arp .inuse 

arp allocated 
arp maxtries 


arpinit done 


uselookback 


图 21-3 


struct 
struct 








route output 





Ger 
qu 
m Ay 
M 5 8 7 
Are Spe, zx & 
co dat EE £f 
ye Wry 信访 
MR rae 
Op efe, Tig 
TA 4 GA 
赋 IP 地 址 时 增加 路 由 结 点 : 使 用 RTM_ADD  " ET 
命令 带 RTF_UP 和 RTF_CLONING 标 志 
RTM_ADD 
RTM DELETE 


RTM, RESOLVE 





针对 所 有 以 大 网 设备 的 


ifa rtrequestER AE 


ARP 国 数 和 内 核 中 其 他 国 数 的 关系 


llinfo arp 1 1info_arp 双 向 链接 表 的 表 头 

来 自 以 太 网 设备 驱动 程序 的 ARP 输 入 队列 
检查 ARP 链 表 的 时 间 间 隔 的 分 钟 数 (5) 
ARP 结 点 的 有 效 时 间 的 分 钟 数 (20) 
ARP 洪 证 算法 的 时 间 间 隔 的 秒 数 (20) 
正在 使 用 的 ARP 结 点 数 

已经 分 配 的 ARP 结 点 数 

对 -一 个 IP 地 址 发 送 ARP 请 求 的 重 试 次 数 (5) 
初始 化 标志 

对 本 机 使 用 环 回 (默认 ) 


图 21-4 本 章 介绍 的 全 局 变量 


ifgueue 
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bsdi $ arp -a 

Sun.tuc.noao.edu (140.252.13.33) at 8:0:20:3:£6:42 
svr4.tuc.noao.edu (140.252.13.34) at 0:0:c0:c2:9b:26 
bsdi.tuc.noao.edu (140.252.13.35) at 0:0:c0:6£:2d:40 permanent 
ALL-SYSTEMS.MCAST.NET (224.0.0.1) at (incomplete) 


图 21-5 与 图 18-2 相 应 的 arp -a 命令 的 输出 


21.3.3 SNMP 变 量 


在 卷 1 的 25.8 节 中 我 们 讲 过 ， 最 初 的 SNMP MIB 定 义 了 一 个 地 址 映射 组 ， 该 组 对 应 的 是 系 
统 的 当前 ARP 缓 存 信息 。 在 MIB-I 中 不 再 使 用 该 组 ， 而 用 各 个 网 络 协 议 组 (如 IP 组 ) 分 别 包含 地 
址 映射 表 来 替代 。 注 意 ， 从 Net/2 到 Net/3， 将 单独 结构 的 ARP 缓 存 演化 为 在 路 由 表 中 集成 的 
ARP 信 息 是 与 SNMP 的 变化 并 行 的 。 


IP 地 址 映射 表 ，index = <ipNetToMedialfIndex>.<ipNetToMediaNetAddress> 


ipNetToMedialfIndex if index 相应 接口 : ifIndex 
ipNetToMediaPhysAddress rt gateway 硬件 地 址 





ipNetToMediaNetAddress rt key IP 地 址 
ipNetToMediaType rt_flags 映射 类 型 : 1= 其 他 ，2= 失 效 ，3= 动 态 ，4= 静 态 ( 见 正 文 ) 


图 21-6 IP 地 址 映射 表 : ipNetToMediaTable 


图 21-6 所 示 的 是 MIB-II 中 的 一 个 IP 地 址 映射 表 ，ipNetToMediaTable， 该 表 保 存 的 值 
来 自 于 路 由 表 结 点 和 相应 的 1fnet 结 构 。 
如 果 路 由 表 结 点 的 生存 期 为 0， 则 被 认为 是 永久 的 ， 也 即 静态 的 。 否 则 就 是 动态 的 。 


21.4 ARP 结构 
在 以 太 网 中 传送 的 ARP 分 组 的 格式 图 21-7 所 示 。 


硬件 类 型 ，ar_hra (ARPHRD_ETHER) 
协议 类 型 ，ar_pro (ETHERTYPE_IP) 


硬件 地 址 长 度 ，ar_hln (6) 
协议 地 址 长 度 , ar pin (4) 


ether, shost ar ,op  arp.sha arp.spa arp.tha ` arp tpa 
TUE JN 
"m b 类 型 地 址 地 址 地 址 地 址 
6bytes 6 2 2 2 11 2 6 4 6 4 


以 太 网 首部 ARP 首 部 
ether header() arphdr() 以 太 网 ARP 字 段 
ether arp() 


图 21-7 在 以 太 网 上 使 用 时 ARP 请 求 或 回答 的 格式 


结构 ether_header 定 义 了 以 太 网 帧 首部 ， 结 构 arphar 定 义 了 其 后 的 5 个 字段 ， 其 信息 
用 于 在 任何 类 型 的 介质 上 传送 ARP 请 求 和 回答 ; ether_arp 结 构 除 了 包含 arphdr 结 构 外 ， 
还 包含 源 主 机 和 目的 主机 的 地 址 。 

结构 arphdr 的 定义 如 图 21-8 所 示 。 图 21-7 显 示 了 该 结构 中 的 前 4 个 字段 。 









ether_type 








ether dhost 






45 
46 
47 
48 
49 
50 
51 
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struct arphdr ( if_arp.h 
u_short ar hrd; /* format of hardware address */ 
u short ar, pro; /* format of protocol address */ 
u_char ar, hin; /* length of hardware address */ 
u_char ar_pin; /* length of protocol address */ 
u „short ar, op; /* ARP/RARP operation, Figure 21.15 */ 
z if arp.h 


图 21-8 arehar 结 构 : 通用 的 ARP 请 求 /回答 数据 首部 


图 21-9 显 示 了 ether_arp 结 构 的 定义 ， 其 中 包含 了 arphdr 结 构 、 源 主机 和 目的 主机 的 
IP 地 址 和 硬件 地 址 。 注 意 ，ARP 用 硬件 地 址 来 表示 48 bit 以 太 网 地 址 ， 用 协议 地 址 来 表示 32 bit 


IP 地 址 


79 
80 
81 
82 
83 
84 
85 


86 
87 
88 
89 
90 





E 


if ether. 


struct ether, arp ( 
struct arphdr ea hdr; /* fixed-size header */ 
u_char arp.sha[6]; /* sender hardware address */ 
u_char arp.spa[Àá]: /* sender protocol address */ 
u_char arp. tha[6]: /* target hardware address */ 
u_char arp tpa[4]; /* target protocol address */ 
}; 


#define arp hrd ea, hdr.ar hrd 
#define arp.pro ea hdr.ar pro 
#define arp.hln ea hdr.ar hln 
&define arp pln ea hdr.ar pln 
$define arp.op ea hdr.ar op 


if ether. 


图 21-9 ether_arp 结 构 


每 个 ARP 结 点 中 ， 都 有 个 11info_arp 结 构 ， 如 图 21-10 所 示 。 所 有 这 些 结构 组 成 的 链 
接 表 的 头 结 点 是 作为 全 局 变量 分 配 的 。 我 们 经 常 把 该 链接 表 称 为 ARP 高 速 缓 存 ， 因 为 在 图 21- 
1 中 ， 只 有 该 数 据 结构 是 与 ARP 结 点 一 一 对 应 的 。 


103 
104 
105 
106 
107 
108 
109 


110 


— if. ether.h 
struct llinfo arp ( 
struct llinfo arp *la, next; 
struct llinfo arp *1la, prev; 
struct rtentry *la rt; 
struct mbuf *la hold; /* last packet until resolved/timeout */ 
long la asked; /* #times we've queried for this addr */ 


}; 


#define la timer la, rt-»rt, rmx.rmx expire /* deletion time in seconds */ 


if. ether.h 
图 21-10 ilinfo arp 结构 


在 Net/2 及 以 前 的 系统 中 ,很 容易 识别 作为 ARP 高 速 缓存 的 数据 结构 ， 因 为 每 一 


个 ARP 结 点 的 信息 都 存放 在 单一 的 结构 中 。 而 Net3 则 把 ARP 信 息 存放 在 多 个 结构 中 ， 
没有 哪个 数据 结构 被 称 为 ARP 高 速 缓存 。 但 是 为 了 讨论 方便 ， 我 们 依然 用 ARP 高 束 
缓存 的 概念 来 表示 一 个 ARP 结 点 的 信息 。 

104-106 该 双向 链接 表 的 前 两 项 由 insque 和 remque 两 个 函数 更 新 。1a_rt 指 向 相关 的 路 
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由 表 结 点 ， 该 路 由 表 结 点 的 rt_11info 成 员 指向 la_rt。 . 

107” 当 ARP 接 收 到 一 个 要 发 往 其 他 主机 的 IP 数 据 报 ， 且 不 知道 相应 硬件 地 址 时 ， 必 须发 送 一 
个 ARP 请 求 ， 并 等 待 回答 。 在 等 待 ARP 回 答 时 ， 指 向 待 发 数据 报 的 指针 存放 在 1a_hold 中 。 
收 到 回答 后 ，1a_hold 所 指 的 数据 报 被 发 送出 去 。 

108-109 1a_asked 记 录 了 连续 为 某 个 IP 地 址 发 送 请 求 而 没有 收 到 回答 的 次 数 。 在 图 21-24 
中 ， 我 们 可 以 看 到 ， 当 这 个 数值 达到 某 个 限定 值 时 ， 我 们 就 认为 该 主机 是 关闭 的 ， 并 在 其 后 
一 段 时 间 内 不 再 发 送 该 主机 的 ARP 请 求 。 

110 ”这 个 定义 使 用 路 由 结 点 中 rt_metrics 结 构 的 rmx_expire 成 员 作为 ARP 定 时 器 。 当 
值 为 0 时 ，ARP 项 被 认为 是 永久 的 ; 当 为 非 零 时 ， 值 为 当 结 点 到 期 时 算 起 的 秒 数 。 


21.5 arpwhohas7] 


arpwhohas 函 数 通常 由 arpresolve 调 用 ， 用 于 广播 一 个 ARP 请 求 。 如 图 21-11 所 示 。 
它 还 可 由 每 个 以 太 网 设备 驱动 程序 调用 ， 在 将 耳 地 址 赋予 该 设备 接口 时 主动 发 送 一 个 地 址 联 
编 信息 (图 6-28 中 的 SIOCSIFADDR ioct1)。 主 动 发 送 地 址 联 编 信息 不 但 可 以 检测 在 以 太 网 
中 是 否 存 在 IP 地 址 冲突 ， 并 且 可 以 使 其 他 机 器 更 新 其 相应 信息 。arpwhohas 只 是 简单 调用 下 
一 部 分 将 要 介绍 的 arprequest 销 数 。 








- if ether.c 
196 void 
197 arpwhohas(ac, addr) 
198 struct arpcom *ac; 
199 struct in addr *addr; 
200 ( 
201 arprequest(ac, &ac-»ac ipaddr. s addr, &addr-»s addr, ac-»ac. enaddr); 
202) if ether.c 


图 21-11 arpwhohas 国 数 : 广播 一 个 ARP 请 求 


196-202 arpcom 结 构 ( 图 3-26) 对 所 有 以 太 网 设备 是 通用 的 ， 是 1e_softc 结 构 (图 3-20) 的 
一 部 分 。ac_ipadqr 成 员 是 接口 的 JP 地址 的 复制 ， 当 SIOCSIFADDR ioct1 执 行 时 由 驱动 
程序 填写 (图 6-28)。ac_enaddr 是 该 设备 的 以 太 网 地 址 。 

该 函数 的 第 二 个 参数 adGr， 是 ARP 请 求 的 目的 IP 地 址 。 在 主动 发 送 动态 联 编 信息 时 ， 
addr 等 于 ac_ipaddr， 所 以 arprequest 的 第 二 和 第 三 个 参数 是 一 样 的 ， 即 发 送 耻 地 址 和 有 目 
的 耳 地址 在 主动 发 送 动态 联 编 信息 时 是 一 样 的 。 


21.6 arprequestifZ 


arprequest 函 数 由 arpwhohas 函 数 调用 ， 用 于 广播 一 个 ARP 请 求 。 该 函数 建立 一 个 
ARP 请 求 分 组 ， 并 将 它 传送 到 接口 的 输出 函数 。 

在 分 析 代 码 之 前 ， 我 们 先 来 看 一 下 该 函数 建立 的 数据 结构 。 传 送 ARP 请 求 需要 调用 以 太 
网 设备 的 接口 输出 函数 ether_output。ether_output 的 一 个 参数 是 mbuf， 它 包 含 待 发 
送 数据 ， 即 图 21-7 中 以 太 网 类 型 字段 后 的 所 有 内 容 。 另 外 一 个 参数 包含 目的 地 址 的 端口 地 址 
结构 。 通 常情 况 下 ， 该 目的 地 址 是 IP 地 址 (例如 ， 在 图 21-3 中 ， ip_output 调 用 
ether_output)。 特 殊 情 况 下 ， 端 口 地 址 的 sa_family 被 设 为 AF_UNSPEC， 即 告知 
ether_output 它 所 带 的 是 一 个 已 填充 的 以 太 网 帧 首部 ， 包 含 了 目的 主机 的 硬件 地 址 ， 这 就 
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防止 了 ether_output 去 调用 arpres1love 而 导致 死 循 环 。 图 21-3 中 没有 显示 这 种 循环 ， 在 
arprequest 下 面 的 接口 输出 函数 是 ether_output 。 如 果 ether_output 再 去 调用 
arpresolve， 将 导致 死 循 环 。 

图 21-12 显 示 了 该 函数 建立 的 两 个 数据 结构 mbuf 和 sockaddr 。 另 外 还 有 两 个 函数 中 用 到 
的 指针 eh 和 ea。 


sockaddr{)} mbuf() 
— — — Án rex O rr 


m_len 28 


TF% T, 
| saaan — — —*] Im type — |MT DATA 
|m.flags — |M.PKTHDR 
eh 





m pkthdr.len 28 


m pkthdr.rcvif|NULL 







未 使 用 
(72 字 : 节 ) 
ea —- 
ether arp{} 
(28 字 节 ) 
图 21-12 arpredquest 建 立 的 sockadqr 和 mbuf 
图 21-13 给 出 了 arprequest 函 数 的 源 代码 。 
if ether.c 


209 static void 

210 arprequest(ac, sip, tip, enaddr) 
211 struct arpcom *ac; 

212 u long *sip, *tip; 

213 u char *enaddr; 


214 ( 

215 Struct mbuf *m; 

216 struct ether header *eh; 

217 struct ether arp *ea; 

218 struct sockaddr sa; 

219 if ((m = m gethdr(M DONTWAIT, MT DATA)) == NULL) 
220 return; 

221 m-»m len - sizeof(*ea); 

222 m-»m pkthdr.len = sizeof(*ea); 

223 MH ALIGN(m, sizeof(*ea)); 

224 ea = mtod(m, struct ether arp *); 

225 eh = (struct ether header *) sa.sa, data; 

226 bzero((caddr t) ea, sizeof(*ea)); 

227 bcopy((caddr t) etherbroadcastaddr, (caddr t) eh-»ether dhost, 
228 sizeof(eh-»-ether, dhost)); 


图 21-13 arprequest 函数 : 创建 一 个 ARP 请 求 并 发 送 
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229 eh-»ether type - ETHERTYPE ARP; /* if output() will swap */ 

230 ea-»arp hrd - htons(ARPHRD ETHER); 

231 ea-»arp. pro = htons(ETHERTYPE IP); 

232 ea-»arp hln = sizeof(ea-»arp sha); /* hardware address length */ 

233 ea-»arp pln = sizeof(ea-»arp spa); /* protocol address length */ 

234 ea-»arp.op = htons(ARPOP REQUEST); 

235 bcopy((caddr t) enaddr, (caddr t) ea-»arp sha, sizeof(ea-»arp,sha)); 

236 bcopy((caddr,.t) sip, (caddr t) ea-»arp.spa, sizeof(ea-»arp spa)); 

237 bcopy((caddr t) tip, (caddr t) ea-»arp tpa, sizeof(ea-»arp tpa)): 

238 Sa.sa family = AF | UNSPEC; 

239 sa.sa len = sizeof (sa); 

240 (*ac-»ac if.if output) (&ac-»ac if, m, &sa, (struct rtentry *) 0); 

241 ) , 

if_ether.c 

图 21-13 (4%) 


1. 分 配 和 初始 化 mbuf 
209-223 ”分 配 一 个 分 组 数据 首部 的 mbuf， 并 对 两 个 长 度 字 段 赋 值 。MH_ALIGN 将 28 字 市 的 
ether_arp 结 构 置 于 mbuf 的 尾部 ， 并 相应 地 设置 m_aata 指 针 的 值 。 将 该 数据 结构 置 于 mbuf 
尾部 ， 是 为 了 允许 ether_output 预 先 考 虑 将 14 字 节 的 以 太 网 帧 首部 置 于 同一 mbuf 中 。 

2. 初始 化 指针 
224-226 给 ea 和 ebh 两 个 指针 赋值 ， 并 将 ether_arp 结 构 的 值 赋 为 0。bzero 的 惟一 目的 是 
将 目的 硬件 地 址 置 0， 该 结构 中 其 余 8 个 字段 已 被 设 成 相应 的 值 。 

3. 填充 以 太 网 帧 首部 
227-229 目的 以 太 网 地 址 设 为 以 太 网 广播 地 址 ， 并 将 以 太 网 帧 类 型 设 为 ETHERTYPE_ARP。 
注意 代码 中 的 注释 ， 接 口 输出 函数 将 该 字段 从 主机 字 节 序 转化 为 网 络 字 节 序 ， 该 函数 还 将 填 
充 本 机 的 以 太 网 地 址 。 图 21-14 显 示 了 不 同 以 太 网 帧 类 型 字段 的 常量 值 。 


ETHERTYPE_IP 0x0800 | 下 帧 


ETHERTYPE_ARP 0x0806 | ARP 
ETHERTYPE REVARP 0x8035 WARP 
ETHERTYPE_IPTRAILERS | 0x1000 | 尾部 封装 (已 废弃 ) 


图 21-14 以 太 网 帧 类 型 字段 


RARP 将 硬件 地 址 映射 成 IP 地 址 ， 通 常 在 无 盘 工 作 站 系统 引导 时 使 用 。 一 般 来 说 ，RARP 
部 分 不 属于 内 核 TCP/IP 实 现 ， 所 以 本 书 将 不 作 描 述 ， 卷 1 的 第 5 章 讲述 了 RARP 的 概念 。 

4. X ARP RE 
230-237 填充 了 ether_arp 的 所 有 字段 ， 除 了 ARP 请 求 所 要 询问 的 目的 硬件 地 址 。 常 量 
ARPHRD_ETHER 的 值 为 1 时 ， 表 示 硬 件 地 址 的 格式 是 6 字 节 的 以 太 网 地 址 。 为 了 表示 协议 地 址 
是 4 字 节 的 IP 地 址 ，arp_pro 的 值 设 为 图 21-14 中 所 指 的 IP 协 议 地 址 类 型 (0x800)。 图 21-15 显 示 
了 不 同 的 ARP 操 作 码 。 本 章 中 ， 我 们 将 看 到 前 两 种 。 后 两 种 在 RARP 中 使 用 。 

5. 填充 sockaddr， 并 调用 接口 输出 函数 
238-241 接口 地 址 结构 的 sa_family 成 员 的 值 设 为 AP_UNSPEC，sa_member 成 员 的 值 设 
为 16。 调 用 楼 口 输出 函数 ether_output。 
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ARPOP, REQUEST || 解析 协议 地 址 的 ARP 请 求 | 


ARPOP REPLY 问答 ARP 请 求 
ARPOP REVREQUEST 解析 硬件 地 址 的 RARP 请 求 
ARPOP REVREPLY 回答 RARP 请 求 


图 21-15 ARP 操作 码 





21.7 arpintr 了 函数 


在 图 4-13 中 , 当 ether_input 函 数 接收 到 帧 类 型 字段 为 ETHERTYPE_ARP 的 以 太 网 帧 时 ， 
产生 优先 级 为 NETISR_RARP 的 软件 中 断 ， 并 将 该 帧 挂 在 ARP 输 入 队列 arpintrg 的 后 面 。 当 
AREZ hE, WarpintrmB, Ani21-16Bpzs. 





319 void if ether.c 
320 arpintr() 

321 ( 

322 struct mbuf *m; 

323 struct arphdr *ar; 

324 int S; 

325 while (arpintrq.ifq head) ( 

326 S = splimp(): 

327 IF DEQUEUE(&arpintrq, m); 

328 Splx(s); 

329 if (m == 0 |i (m-»m flags & M PKTHDR) == 0) 

330 panic("arpintr"); 

331 if (m-»m len »- sizeof(struct arphdr) && 

332 (ar = mtod(m, struct arphdr *)) && 

333 ntohs(ar-»ar hrd) == ARPHRD ETHER && 

334 m-»m len >= sizeof(struct arphdr) + 2*ar-»ar hln + 2*ar-»ar pln) 
335 Switch (ntohs(ar-»ar pro)) { 

336 Case ETHERTYPE IP: 

337 Case ETHERTYPE IPTRAILERS: 

338 in arpinput (m); 

339 continue; 

340 H 

341 m freem (m); 

342 ) 

343 Y LL rm 


图 21-16 arpintr 国 数 : 处 理 包含 ARP 请 求 / 回 答 的 以 太 网 帧 


319-343 while 循环 一 次 处 理 一 个 以 太 网 帧 ， 直 到 处 理 完 队 列 中 的 所 有 帧 为 止 。 只 有 当 帧 
的 硬件 类 型 指明 为 以 太 网 地 址 ， 并 且 帧 的 长 度 大 于 或 等 于 arphdzr 结 构 的 长 度 加 上 两 个 硬件 地 
址 和 两 个 协议 地 址 的 长 度 时 ， 该 帧 才能 被 处 理 。 如 果 协 议 地 址 的 类 型 是 ETHERTYPE_IP 或 
ETHERTYPE_IPTRAILERS 时 ， 调 用 in_arpinput 国 数 ， 否 则 该 帧 将 被 丢弃 。 

注意 if 语句 中 对 条 件 的 检测 顺序 。 共 两 次 检查 帧 的 长 度 。 首 先 ， 当 帧 长 大 于 或 等 于 
arphdr 结 构 的 长 度 时 ， 才 去 检查 帧 结构 中 的 其 他 字段 ; 然后 ， 利 用 arphar 中 的 两 个 长 度 字 


段 再 次 检查 帧 长 。 
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21.8 in arpinputi&N 


该 函数 由 arpintr 调 用 ， 用 于 处 理 接收 到 的 ARP 请 求 /回答 。ARP 本 身 的 概念 比较 简单 ， 
但 是 加 上 许多 规则 后 ， 实 现 就 比较 复杂 ， 下 面 先 来 看 一 下 两 种 典型 情况 : 
1) 如 果 收 到 一 个 针对 本 机 了 王 地 址 的 请 求 ， 则 发 送 一 个 回答 。 这 是 一 种 普通 情况 。 很 显然 ， 
我 们 将 继续 从 那个 主机 收 到 数据 报 ， 随 后 也 会 向 它 回 送 报 文 。 所 以 ， 如 果 我 们 还 没有 
对 应 它 的 ARP 结 点 ， 就 应 该 添加 一 个 ARP 结 点 ， 因 为 这 时 我 们 已 经 知道 了 对 方 的 IP 地 
址 和 硬件 地 址 。 这 会 优化 其 后 与 该 主机 的 通信 。 
2) 如 果 收 到 一 个 ARP 回 答 ， 那 么 此 时 ARP 结 点 是 完整 的 ， 因 此 就 知道 了 对 方 的 硬件 地 址 。 
该 地 址 存放 在 sockaddr_d1 结 构 中 ， 所 有 发 往 该 地 址 的 数据 报 将 被 发 送 。 
ARP 请 求 是 被 广播 发 送 的 ， 所 以 以 太 网 上 的 所 有 主机 都 将 看 到 该 请 求 ， 当 然 包 括 那 些 
非 目 的 主机 。 回 想 一 下 arprequest 消 数 ， 在 发 送 ARP 请 求 时 ， 帧 中 包含 着 请 求 方 的 
IP 地 址 和 硬件 地 址 ， 这 就 产生 了 下 面 的 情况 : 
3) 如 果 其 他 主机 发 送 了 一 个 ARP 请 求 或 回答 ， 其 中 发 送 方 的 下 地 址 与 本 机 相同 ， 那 么 肯 
定 有 一 个 主机 配置 有 误 。Net/3 将 检测 到 该 差错 ， 并 向 管理 员 登 记 一 个 报 文 (这 里 我 们 不 
分 请 求 或 回答 ， 因 为 in_arpinout 不 检查 操作 类 型 ， 但 是 ARP 回 答 将 被 单 播 ， 只 有 
目的 主机 才能 收 到 信息 )。 
4) 如 果 主 机 收 到 来 自 其 他 主机 的 请 求 或 回答 ， 对 应 的 ARP 结 点 早已 存在 ， 但 硬件 地 址 发 生 
了 变化 ， 那 么 ARP 结 点 将 被 更 新 。 这 种 情况 是 这 样 发 生 的 : 其 他 主机 以 不 同 的 硬件 地 址 
重新 启动 ， 而 本 机 的 对 应 ARP 结 点 还 未 失效 。 这 样 ， 根 据 机 器 重启 动 时 主动 发 送 动态 联 
编 信 息 ， 可 以 使 主机 不 至 于 因 其 他 主机 重启 动 后 导致 的 ARP 结 点 失效 而 不 能 通信 。 
5). 主 机 可 以 被 配置 为 代理 ARP 服 务 器 。 这 种 情况 下 ， 主 机 可 以 代 其 他 主机 响应 ARP 请 求 ， 
在 回答 中 提供 其 他 主机 的 硬件 地 址 。 代 理 ARP 回 答 中 对 应 目的 硬件 地 址 的 主机 必须 能 
够 把 下 数据 报 转发 至 ARP 请 求 中 指定 的 目的 主机 。 卷 1 的 4.6 节 讨论 了 代理 ARP。 
一 个 Net/3 系 统 可 以 配置 成 代理 ARP 服 务 器 。 这 些 ARP 结 点 可 以 通过 arp 命 令 添 加 ， 该 命令 
中 指定 下 地 址 、 硬 件 地 址 并 使 用 关键 词 pup。 我 们 将 在 图 21-20 中 看 到 该 实现 ， 并 在 21-12 5 
讨论 其 实现 细节 。 
将 in_arpinput 的 分 析 分 为 四 部 分 ， 图 21-17 显 示 了 第 一 部 分 。 
358-375 ether_arp 结 构 的 长 度 由 调用 者 (arp_intr 函 数 ) 验 证 ， 所 以 ea 指针 指向 接收 到 
的 分 组 。ARP 操 作 码 ( 请 求 或 回答 ) 被 拷贝 至 op 字段 ， 但 具体 值 要 到 后 面 来 验证 。 发 送 方 和 目 
的 方 的 IP 地 址 撕 贝 到 isadar 和 itaqddr。 
1. 查找 匹配 的 接口 和 IP 地 址 
376-382 搜索 本 机 的 Internet 地 址 链表 (in_ifaddr 结 构 的 链表 ， 图 6-5)。 要 记 住 一 个 接 
口 可 以 有 多 个 IP 地 址 。 收 到 的 数据 报 中 有 指向 接收 接口 fnet 结 构 的 指针 (在 mbuf 数 据 报 的 首 
部 )，for 循 环 只 考虑 与 接收 接口 相关 的 IP 地 址 。 如 果 查 询 到 有 IP 地 址 等 于 目的 方 IP 地 址 或 发 
送 方 记 地 址 ， 则 退出 循环 。 l 
383-384 如 果 循 环 退 出 时 ， 变 量 maybe_ia 的 值 为 0， 说 明 已 经 搜索 了 配置 的 耻 地 址 整个 链 
表 而 没有 找到 相关 项 。 函 数 跳 至 out( 图 21-19)， 丢 奔 mbuf， 并 返回 。 这 种 情况 只 发 生 在 收 到 
ARP 请 求 的 接口 虽然 已 初始 化 但 还 没有 分 配 卫 地 址 时 。 
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385 ”如果 退 出 循环 时 ，maybe_ia 值 不 为 0， 即 找到 了 一 个 接收 端 接口 ， 但 没有 一 个 下地 址 
与 目的 方 I 了 地址 或 发 送 方 下 地 址 匹配 ， 则 myaddz 的 值 设 为 该 接口 的 最 后 一 个 IP 地 址 ; 否则 
(正常 情况 )，myaddr 包 含 与 目的 方 或 发 送 方 的 下地 址 匹配 的 本 地 耳 地 址 。 











358 static void if. ether.c 
359 in, arpinput (m) 
360 struct mbuf *m; 
361 ( 
362 Struct ether, arp *ea; 
363 Struct arpcom *ac - (struct arpcom *) m-»m pkthdr.rcvif; 
364 Struct ether, header *eh; 
365 struct llinfo, arp *la = 0; 
366 struct rtentry *rt; 
367 Struct in ifaddr *ia, *maybe ia - 0; 
368 struct sockaddr dl *sdl; 
369 struct sockaddr sa; 
370 struct in_addr isaddr, itaddr, myaddr; 
371 int Op; 
372 ea = mtod(m, struct ether arp *); 
373 op = ntohs(ea-»arp op); 
374 bcopy((caddr t) ea-»arp spa, (caddr t) & isaddr, sizeof(isaddr)); 
375 bcopy((caddr t) ea-»arp tpa, (caddr t) & itaddr, sizeof(itaddr)); 
376 for (ia - in ifaddr; ia; ia - ia-»ia next) 
377 if (ia-»ia,.ifp == &ac-»ac if) ( 
378 maybe ia - ia; 
379 if ((itaddr.s, addr == ia-»ia addr.sin addr.s addr) |I 
380 (isaddr.s addr == ia-»ia, addr.sin addr.s addr)) 
381 break; 
382 ) 
383 if (maybe, ia == 0) 
384 goto out; 
385 myaddr = ia ? ia-»ia addr.sin addr : maybe ia-»ia addr.sin addr; 
if ether.c 
图 21-17 in arpinput kğ: 查找 匹配 接口 
图 21-18 显 示 了 in_arpinput 国 数 的 第 二 部 分 ， 执 行 分 组 的 验证 。 
: if. ether.c 
386 if (!bcmp((caddr t) ea-»arp sha, (caddr t) ac-»ac enaddr, 
387 Sizeof(ea-»arp sha))) 
388 goto out; /* it's from me, ignore it. */ 
389 if (!bomp((caddr t) ea-»arp sha, (caddr t) etherbroadcastaddr, 
390 Ssizeof(ea-»arp sha))) ( : 
391 log (LOG_ERR, 
392 "arp: ether address is broadcast for IP address $x!Wn", 
393 ntohl(isaddr.s, addr)); l 
394 goto out; : A 
395 } 
396 if (isaddr.s addr == myaddr.s addr) { 
397 log (LOG_ERR, 
398 "duplicate IP address $x!! sent from ethernet address: %s\n”, 
399 ntohl(isaddr.s addr), ether sprintf(ea-»arp sha)); 
400 itaddr - myaddr; 
401 goto reply; 
402 ) 
if ether.c 


图 21-18 in_arpinput 国 数 : 验证 接收 到 的 分 组 
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2. 验证 发 送 方 的 硬件 地 址 
386-388 如果 发 送 方 的 硬件 地 址 等 于 本 机 接口 的 硬件 地 址 ， 那 是 因为 收 到 了 本 机 发 出 的 请 
389-395 如果 发 送 方 的 硬件 地 址 等 于 以 太 网 的 广播 地 址 ， 说 明 出 了 差错 。 记 录 该 差错 ， 并 
丢弃 该 分 组 。 

3. 检查 发 送 方 思 地 址 ， 
396-402 如 果 发 送 方 的 了 下地 址 等 于 myaddqr， 说 明 发 送 方 和 本 机 正在 使 用 同一 个 耳 地 址 。 这 
也 是 一 个 差错 一 一 要 么 是 发 送 方 ， 要 么 是 本 机 系统 配置 出 了 差错 。 记 录 该 差错 ， 在 将 目的 IP 
地 址 设 为 nyaddr 后 ， 程 序 转 至 reply( 图 21-19)。 注 意 该 ARP 分 组 本 来 要 送 往 以 太 网 中 其 他 
主机 的 一 一 该 分 组 本 来 不 是 要 送 给 本 机 的 。 但 是 ， 如 果 这 种 形式 的 耳 地 址 欺骗 被 检测 到 ， 应 
记录 差错 ， 并 产生 回答 。 

图 21-19 显 示 了 in_arpinput 国 数 的 第 三 部 分 。 








if. ether.c 
403 la = arplookup(isaddr.s addr, itaddr.s addr == myaddr.s addr, 0); 
404 if (la && (rt = la-»la rt) && (sdl = SDL(rt-»rt gateway))) ( 
405 if (sdl-»sdl alen && 
406 bcmp((caddr t) ea-»arp sha, LLADDR(sdl), sdl-»sdl, alen)) 
407 log(LOG INFO, "arp info overwritten for $x by $sWn", 
408 isaddr.s addr, ether sprintf(ea-»arp sha)); 
409 bcopy((caddr t) ea-»arp.sha, LLADDR(sdl), 
410 sdl-»sdl,alen = sizeof(ea-»arp sha)); 
411 if (rt-»rt expire) 
412 rt-»rt expire = time.tv sec + arpt keep; 
413 rt-»rt flags &- "RTF REJECT; 
414 la-»1a asked = 0; 
415 if (1a-»1a hold) { 
416 (*ac-»ac if.if output) (&ac-»ac if, la-»la hold, 
417 ^ rt key(rt), rt); 
418 la-»1a, hold = 0; 
419 } 
420 } 
421 reply: 
422 if (op != ARPOP REQUEST) { 
423 out: 
424 m freem(ím); 
425 return; 
426 ) if ether.c 





图 21-19 in_arpinput 函 数 : 创建 新 的 ARP 结 点 或 更 新 已 有 的 ARP 结 点 


4. 在 路 由 表 中 搜索 与 发 送 方 了 地址 匹配 的 结 点 
403 arplookup 在 ARP 高 速 缓存 中 查找 符合 发 送 方 的 了 地 址 (isaqqr)。 当 ARP 分 组 中 的 目 
的 IP 地 址 等 干 本 机 IP 时 ， 如 果 要 创建 新 的 ARP 结 点 ， 那 么 第 二 个 参数 是 1， 如 果 不 需 要 创建 新 
的 ARP 结 点 ， 那 么 第 二 个 参数 是 0。 如 果 本 机 就 是 目的 主机 ， 总 是 要 创建 ARP 结 点 的 ， 除 非 一 
个 查找 其 他 主机 的 广播 分 组 ， 这 种 情况 下 只 是 在 已 有 的 ARP 结 点 中 查询 。 正 如 前 面 提 到 的 ， 
如 果 主机 收 到 一 个 对 应 它 自 己 的 ARP 请 求 ， 则 说 明 以 太 网 中 有 其 他 主机 将 要 与 它 通信 ， 所 以 
应 该 创建 一 个 对 应 该 主机 的 ARP 结 点 。 

第 三 个 参数 是 0， 意 味 着 不 去 查找 代理 ARP 结 点 (后 面 要 证 明 )。 返 回 值 是 指向 11info-_ 
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arPp 结 构 的 指针 ; 如 果 查 不 到 或 没有 创建 ， 返 回 值 就 是 空 。 

5. 更 新 已 有 结 点 或 填充 新 的 结 点 
404 只 有 当 以 下 三 个 条 件 为 真 时 if 语 名 才 执行 : 

1) 找到 一 个 已 有 的 ARP 结 点 或 成 功 创建 一 个 新 的 ARP 结 点 ( 即 1a 非 空 ); 

2) ARP 结 点 指向 一 个 路 由 表 结 点 (rt); 

3) 路 由 表 结 点 的 re_gateway 字 段 指 向 一 个 sockaddr_41 结 构 。 

对 于 每 一 个 目的 并 非 本 机 的 广播 ARP 请 求 ， 如 果 发 送 方 的 IP 地 址 不 在 路 由 表 ， 则 第 一 个 
条 件 为 假 。 

6. 检查 发 送 方 的 硬件 地 址 是 否 已 改变 
405-408 ”如果 链 路 层 地 址 长 度 (sdal_alen) 非 0， 说 明 引 用 的 路 由 表 结 点 是 现存 的 而 非 新 创 
建 的 ， 则 比较 链 路 层 地 址 和 发 送 方 的 硬件 地 址 。 如 果 不 同 ， 则 说 明 发 送 方 的 硬件 地 址 已 经 改 
变 ， 这 是 因为 发 送 方 以 不 同 的 以 太 网 地 址 重新 启动 了 系统 ， 而 本 机 的 ARP 结 点 还 未 超时 。 这 
种 情况 虽然 很 少 出 现 ， 但 也 必须 考虑 到 。 记 录 差 错 信息 后 ， 程 序 继续 往 下 执行 ， 更 新 ARP 结 
点 的 硬件 地 址 。 

在 这 个 记录 报 文 中 ， 发 送 方 的 了 了 地址 必须 转换 为 主机 字 节 序 ， 这 是 一 个 错误 。 

7. 记录 发 送 方 硬件 地 址 
409-410 ”将 发 送 方 的 硬件 地 址 写 入 路 由 表 结 点 中 rt_gateway 成 员 指 向 的 sockaddr_dl 
结构 。sockaddr._dl 结 构 的 链 路 层 地 址 长 度 (sdl_alen) 也 被 设 为 6。 该 赋值 对 于 最 近 创 建 
的 ARP 结 点 是 需要 的 (习题 21-3)。 

8. 更 新 最 近 解 析 的 ARP 结 点 
411-412 在 解析 了 发 送 方 的 硬件 地 址 后 ， 执 行 以 下 步骤 。 如 果 时 限 是 非 零 的 ， 则 将 被 复位 
成 20 分 钟 (arpt_keep)。arp 命 令 可 以 创建 永久 的 ARP 结 点 ， 即 该 结 点 永远 不 会 超时 。 这 些 
ARP 结 点 的 时 限 值 置 为 0。 在 图 21-24 中 我 们 将 看 到 ， 在 发 送 ARP 请 求 ( 非 永久 性 ARP 结 点 ) 时 ， 
时 限 被 设 为 本 地 时 间 ， 它 是 非 0 的 。 
413-414 清除 RTF_REJECT 标 志 ，1a_asked 计 数 器 设 为 0。 我 们 将 看 到 ， 在 
arpresolve 中 使 用 最 后 两 个 步 又 是 为 了 防止 ARP 洪 泛 。 
415-420 如 果 ARP 中 保持 有 正在 等 待 ARP 解 析 该 目的 方 硬件 地 址 的 mbuf， 那 么 将 mbuf 送 至 
接口 输出 函数 (如 图 21-1 所 示 )。 由 于 该 mbuf 是 由 ARP 保 持 的 ， 即 目的 地 址 肯定 是 在 以 太 网 上 ， 
所 以 接口 输出 函数 应 该 是 ether_outout。 该 函数 也 调用 arpresolve， 但 这 时 硬件 地 址 已 
被 填充 ， 所 以 允许 mbuf 加 入 实际 的 设备 输出 队列 。 

9. 如 果 是 ARP 回 答 分 组 ， 则 返回 
421-426 如 果 该 ARP 操 作 不 是 请 求 ， 那 么 丢弃 接收 到 的 分 组 ， 并 返回 。 

in_arpinput 的 剩 下 部 分 如 图 21-20 所 示 ， 产 生 一 个 对 应 于 ARP 请 求 的 回答 。 只 有 当 以 
干 两 种 情况 时 才 会 产生 ARP 回 答 : 

1) 本 机 就 是 该 请 求 所 要 查找 的 目的 主机 ; 

2) 本 机 是 该 请 求 所 要 查找 的 目的 主机 的 ARP 代 理 服 务 器 。 

函数 执行 到 这 个 时 刻 ， 已 经 接收 了 ARP 请 求 ， 但 ARP 请 求 是 广播 发 送 的 ， 所 以 目的 主机 
可 能 是 以 太 网 上 的 任何 主机 。 

10. 本 机 就 是 所 要 查找 的 目的 主机 
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427-432 如 果 目 的 耳 地址 等 于 myaddr， 那 么 本 机 就 是 所 要 查找 的 目的 主机 。 将 发 送 方 硬件 
地 址 拷贝 到 目的 硬件 地 址 字段 (发 送 方 现在 变 成 了 目的 主机 )，arpcom 结 构 中 的 接口 以 太 网 地 
址 拷贝 到 源 硬 件 地 址 字段 。ARP 回 答 中 的 其 余部 分 在 el se 语 名 后 处 理 。 





F - if_ether.c 
427 if {itaddr.s_addr == myaddr.s addr) { 
428 /* I am the target */ 
429 bcopy((caddr t) ea->arp sha, (caddr t) ea-»arp tha, 
430 sizeof(ea-»arp sha)); 
431 bcopy((caddr t) ac-»ac enaddr, (caddr t) ea-»arp shá, 
432 Sizeof(ea-»arp.sha)); 
433 ) else ( 
434 la = arplookup(itaddr.s addr, 0, SIN PROXY); 
435 if {la == NULL) 
436 goto out; 
437 rt = la-»la rt; 
438 bcopy((caddr t) ea-»arp.sha, (caddr t) ea-»arp.tha, 
439 Sizeof(ea-»arp.sha)); 
440 sdl - SDL(rt-»rt gateway); 
441 bcopy (LLADDR(sdl), (caddr t) ea-»arp sha, sizeof(ea-»arp sha)); 
442 } 
443 bcopy((caddr t) ea-»arp spa, (caddr t) ea-»arp tpa, sizeof(ea-»arp. spa)); 
444 bcopy((caddr t) & itaddr, (caddr t) ea-»arp spa, sizeof(ea-»arp spa)); 
445 ea-»arp op = htons(ARPOP, REPLY); 
446 ea-»arp pro = htons(ETHERTYPE IP); /* let's be sure! */ 
447 eh = (struct ether, header *) sa.sa, data; 
448 bcopy((caddr t) ea-»arp tha, (caddr t) eh-»ether dhost, 
449 sizeof(eh-»ether dhost)); 
450 eh-»-ether, type = ETHERTYPE ARP; 
451 sa.sa family = AF, UNSPEC; 
452 sa.sa len = sizeof (sa); . 
453 (*ac-»ac if.if output) (&ac-»ac if, m, &sa, (struct rtentry *) 0); 
454 return; 
255 ) if ether.c 


图 21-20 in arpinput HU: 形成 ARP 回 答 ， 并 发 送出 去 


11. 检测 本 机 是 否 目的 主机 的 ARP 代 理 服务 器 
433-437 即使 本 机 不 是 所 要 查找 的 目的 主机 ， 也 可 能 被 配置 为 目的 主机 的 ARP 代 理 服务 器 。 
再 次 调用 arplookup 函 数 ， 将 第 二 个 参数 设 为 0， 第 三 个 参数 设 为 SIN_PROXY， 这 将 在 路 由 
表 中 查找 SIN_PROXY 标 志 为 1 的 结 点 。 如 果 查 找 不 到 (这 是 通常 情况 ， 本 机 收 到 了 以 太 网 上 其 
他 ARP 请 求 的 拷贝 )，out 处 的 代码 将 丢弃 mbuf， 并 返回 。 

12. 产生 代理 回答 
437-442 处 理 代理 ARP 请 求 时 ， 发 送 方 的 硬件 地 址 变 成 目的 硬件 地 址 ，ARP 结 点 中 的 以 太 
网 地 址 拷贝 到 发 送 方 硬件 地 址 。 该 ARP 结 点 中 的 硬件 地 址 可 以 是 以 太 网 中 任 一 台 主 机 的 硬件 
地 址 ， 只 要 它 可 以 向 目的 主机 转发 卫 数 据 报 。 通 常 ， 提 供 代理 ARP 服 务 的 主机 会 填 人 自己 的 
硬件 地 址 ， 当 然 这 不 是 要 求 的 。 代 理 ARP 结 点 是 由 系统 管理 员 用 arp 命 令 带 关键 字 Ppub 创 建 的 ， 
标明 目的 IP 地 址 (这 是 路 由 表 项 的 关键 值 ) 和 在 ARP 回 答 中 返回 的 以 太 网 地 址 。 

13. 完成 构造 ARP 回 答 分 组 
443-444 继续 完成 ARP 回 答 分 组 的 构建 。 发 送 方 和 上 且 标的 硬件 地 址 已 经 填充 好 了 ， 现 在 交 
换 发 送 方 和 目标 的 了 是 地 址 。 目 的 IP 地 址 在 itaddr 中 ， 如 果 发 现 以 太 网 中 有 其 他 主机 使 用 同一 
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IP 地 址 ， 则 该 值 已 经 被 填充 了 ( 见 图 21-18)。 
445-446 ARP 操作 码 字段 设 为 ARPOP_REPLY， 协 议 地 址 类 型 设 为 BTHERTYPE_IP。 旁 边 
加 了 注释 “你 需要 确定 "， 是 因为 当 协 议 地 址 类 型 为 BTHERTYPE_ IPTRRAILERS 时 arpintr 
也 会 调用 该 函数 ， 但 现在 跟踪 封装 (trailer encapsulation) 已 不 再 使 用 了 。 

14. A RAAM UR sockaddr 
447-452 sockaddr 结 构 用 14 字 节 的 以 太 网 帧 首部 填充 ， 如 图 21-12 所 示 。 目 的 硬件 地 址 变 
成 了 以 太 网 目的 地 址 。 
453-455 将 ARP 回 答 传送 至 接口 输出 函数 ， 并 返回 。 


21.9 ARP 定 时 器 函数 


ARP 结 点 一 般 是 动态 的 一 一 需要 时 创建 ， 超 时 时 自动 删除 。 也 允许 管理 员 创建 永久 性 结 
点 ， 前 面 我 们 讨论 的 代理 结 点 就 是 永久 性 的 。 回 忆 一 下 图 21-1 和 图 21-10 中 最 后 的 #define 语 
句 ， 路 由 度量 结构 中 的 rmx_expire 成 员 就 是 用 作 ARP 定 时 器 的 。 


21.9.1 arptimer 函 数 


如 图 21-21 所 示 ， 该 函数 每 5 分 钟 被 调用 一 次 。 它 查看 所 有 ARP 结 点 是 否 超时 。 


- - if ether.c 
74 static void 
75 arptimer(ignored arg) 
76 void *ignored arg; 
77 ( 
78 int S = Ssplnet(); 
79 struct llinfo arp *la = llinfo arp.la next; 
80 timeout(arptimer, (caddr t) 0, arpt,prune * hz); 
81 while (la !- &llinfo arp) ( 
82 struct rtentry *rt = la--»la rt; 
83 la = la-»1a, next; 
84 if (rt-»rt expire && rt-»rt expire <= time.tv sec) 
85 arptfree(la-»1la prev); /* timer has expired, clear */ 
86 ) 
87 spix(s); 
89) if ether.c 


图 21-21 arptimertK7: 每 5 分 钟 查 看 所 有 ARP 定 时 器 

1. 设置 下 一 个 时 限 
80 arp_rtrequest 图 数 使 arptimer 了 函数 第 一 次 被 调用 ， 随 后 arptimer 每 隔 5 分 钟 
(arpt_prune) 使 自己 被 调用 一 次 。 

2. 查看 所 有 ARP 结 点 
81-86 ”查看 ARP 结 点 链表 中 的 每 一 个 结 点 。 如 果 定 时 器 值 是 非 零 的 (不 是 一 个 永和 久 结 点 )， 
而 且 时 间 已 经 超时 ， 那 么 arptfree 就 删除 该 结 点 。 如 果 rt_expire 是 非 零 的 ， 它 的 值 是 从 
结 点 超时 起 到 现在 的 秒 数 。 


21.9.2 arptfree 函 数 


如 图 21-22 所 示 ， arptfree 国 数 由 arptimer 国 数 调用 ， 用 于 从 链接 11info_d1 表 项 的 
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列表 中 删除 一 个 超时 的 ARP 结 点 。 

1. 使 正在 使 用 的 结 点 无 效 (不 删除 ) 
467-473 如 果 路 由 表 引 用 计数 器 值 大 于 0， 而 且 rt_gatewary 成 员 指 向 一 个 
sockaddr_d1 结 构 ， 则 arptfree 执 行 以 下 步骤 ， 

1) 将 链 路 层 地 址 长 度 设 为 0; 

2) 将 1a_asked 计 数 器 值 设 为 0; 

3) 清除 RTF_REJECT 标 志 。 

随后 函数 返回 。 因 为 路 由 表 引 用 计数 器 值 非 零 ， 所 以 该 路 由 结 点 不 能 删除 。 但 是 将 
sd1_alen 值 设 为 0， 该 结 点 也 就 无 效 了 。 下 次 要 使 用 该 结 点 时 ， 还 将 产生 一 个 ARP 请 求 。 





459 static void if. ether.c 
460 arptfree(la) 
461 struct llinfo arp *la; 
462 ( 
463 struct rtentry *rt = la-»la, rt; 
464 Struct sockaddr dl *sdl; 
465 if (rt == 0) 
466 panic ("arptfree"); 
467 if (rt-»rt refcnt > 0 && (sdl = SDL(rt-»rt gateway)) && 
468 sdl-»sdl family == AF LINK) { 
469 Sdl-»sdl,alen = 0; 
470 la~>la asked = 0; 
471 rt-»rt flags &= ^RTF REJECT; 
472 return; 
473 ) 
474 rtrequest (RTM DELETE, rt key(rt), (struct sockaddr *) 0, rt mask(rt), 
475 0, (struct rtentry **) 0); 
476 ) 
if ether.c 


图 21-22 arpttree 国 数 : 删除 或 使 一 个 ARP 结 点 无 效 


2. 删除 没有 被 引用 的 结 点 
474-475 TYtredquest 删 除 路 由 结 点 ， 在 21.13 节 中 ， 我 们 将 看 到 它 调用 了 arp-_ 
rtrequest。arp_rtrequest 函 数 释 放 所 有 该 ARP 结 点 保持 的 mbuf( 由 1a_hold 指 针 所 指 
向 )， 并 删除 相应 的 11info_arp 结 点 。 


21.10 arpresolvetpf 3 


在 图 4-16 中 ，ether_outpbut 国 数 调用 arpresolve 国 数 以 获得 对 应 某 个 了 地 址 的 以 太 
网 地 址 。 如 果 已 知 该 以 太 网 地 址 ， 则 arpres1love 返 回 值 为 1， 人 允许 将 待 发 下 数据 报 挂 在 接口 
输出 队列 上 。 如 果 不 知道 该 以 太 网 地 址 ， 则 arpresolve 返 回 值 为 0，arpsolve 国 数 利用 
11info_arp 结 构 的 1a_holdqd 成 员 指 针 “保持 (hela)” 待 发 卫 数 据 报 ， 并 发 送 一 个 ARP 请 求 。 
收 到 ARP 回 答 后 ， 再 将 保持 的 下 数据 报 发 送出 去 。 

arpresolve 应 避免 ARP 洪 泛 ， 也 就 是 说 ， 它 不 应 在 尚未 收 到 ARP 回 答 时 高 速 重 复发 送 
ARP 请 求 。 出 现 这 种 情况 主要 有 两 个 原因 ， 第 一 ， 有 多 个 下 数据 报 要 发 往 同 一 个 尚未 解析 硬 
件 地 址 的 主机 ; 第 二 ， 一 个 IP 数 据 报 的 每 个 分 片 都 会 作为 独立 分 组 调用 ether_output。 
11.9 节 讨论 了 一 个 由 分 片 引 起 的 ARP 洪 泛 的 例子 及 相关 的 问题 。 图 21-23 显 示 了 arpresolve 
的 前 半 部 分 。 . 
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252-261 dst 是 一 个 指向 sockaddr_in 的 指针 ， 它 包含 目的 IP 地 址 和 对 应 的 以 太 网 地 址 
(一 个 6 字 节 的 数组 )。 


- if ether.c 
252 int 
253 arpresolve(ac, rt, m, dst, desten) 
254 struct arpcom *ac; 
255 struct rtentry *rt; 
256 struct mbuf *m; 
257 struct sockaddr *dst; 
258 u char *desten; 
259 ( 
260 struct llinfo arp *la; 
261 struct sockaddr dl *sdl; 
262 if (m-»m.flags & M BCAST) ( /* broadcast */ 
263 bcopy((caddr t) etherbroadcastaddr, (caddr t) desten, 
264 sizeof (etherbroadcastaddr)); 
265 return (1); 
266 ) 
267 if (m-»m flags & M MCAST) ( /* multicast */ 
268 ETHER MAP, IP. MULTICAST(&SIN(dst)-»sin addr, desten); 
269 return (1); 
270 ) 
271 if (rt) 
272 la = (struct llinfo.arp *) rt-»rt llinfo; 
273 else ( 
274 if (la = arplookup(SIN(dst)-»sin,addr.s addr, 1, 0)) 
275 rt - la-»la rt; 
276 ) 
277 if (la == 0 l| rt == 0) { 
278 log(LOG DEBUG, "arpresolve: can't allocate llinfo"); 
279 m freemím); 
280 return (0); 
281 i if. ether.c 





图 21-23 arpresolvetfÓÜ: 查找 所 需 的 ARP 结 点 


1. 处 理 广 播 和 多 播 地 址 
262-270 ”如 果 mbuf 的 M_BCAST 标 志 置 位 ， 则 用 以 太 网 广播 地 址 填充 目的 硬件 地 址 字段 ， 函 
数 返 回 !。 如 果 M_MCAST 标 志 置 位 ， 则 宏 ETHER_MAP_IP_MULTICAST( 图 12-6) 将 D 类 地 址 映 
射 为 相应 的 以 太 网 地 址 。 

2. 得 到 指向 11info_arp 结 构 的 指针 
271-276 目的 地 址 是 单 播 地 址 。 如 果 调 用 者 传输 了 一 个 指向 路 由 表 结 点 的 指针 ， 则 将 1a 设 
置 为 相应 的 11info_arp 结 构 。 否 则 ，arplookup 根 据 给 定 IP 的 地 址 搜索 路 由 表 。 第 二 个 参 
数 是 1， 告 诉 arplookup 如 果 搜 索 不 到 相应 的 ARP 结 点 就 创建 一 个 新 的 ; 第 三 个 参数 是 0， 即 
意味 着 不 去 查找 代理 ARP 结 点 。 
277-281 如 果 rt 或 1a 中 有 一 个 是 空 指针 ， 说 明 刚才 请 求 分 配 内 存 时 失败 ， 因 为 即使 不 存在 
已 有 结 点 ，arplookup 也 已 经 创建 了 一 个 ，rt 和 1a 都 不 应 是 空 值 。 记 录 一 个 差错 报 文 ， 释 
放 分 组 ， 尔 数 返 回 0。 

图 21-24 显 示 了 arpresolve 的 后 半 部 分 。 它 检查 ARP 结 点 是 否 有 效 ， 如 无 效 ， 则 发 送 一 
个 ARP 请 求 。 
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if ether.c 
282 sdl - SDL(rt-»rt gateway); 
283 /* 
284 * Check the address family and length is valid, the address 
285 * is resolved; otherwise, try to resolve. 
286 */ 
287 if ((rt-»rt expire == 0 || rt-»rt, expire > time.tv sec) && 
288 Sdl-»sdl family == AF LINK && sdl-»sdl alen !- 0) ( 
289 bcopy(LLADDR(sdi), desten, sdl-»sdl alen); 
290 return 1; 
291 ) 
292 /* 
293 * There is an arptab entry, but no ethernet address 
294 * response yet. Replace the held mbuf with this 
295 * latest one. 
296 */ 
297 if (1a-»1a, hold) 
298 m freem(la-»la, hold); 
299 la-»1a hold = m; 
300 if (rt-»rt expire) ( 
301 rt-»rt flags &- "RTF REJECT; 
302 if (la-»1a asked == 0 || rt-»rt expire !- time.tv sec) ( 
303 rt-»rt expire - time.tv sec; 
304 if (la->la_asked++ < arp maxtries) 
305 arpwhohas(ac, &(SIN(dst)-»sin addr)); 
306 else ( 
307 rt-»rt flags |- RTF REJECT; 
308 rt-»rt expire += arpt, down; 
309 la-»la asked = 0; 
310 } 
311 ) 
312 ) 
313 return (0); 
Nt if ether.c 





图 21-24 arpresolve 国 数 : 检查 ARP 结 点 是 否 有 效 ， 如 无 效 ， 则 发 送 一 个 ARP 请 求 


3. 检查 ARP 结 点 的 有 效 性 
282-291 ”即使 找到 了 一 个 ARP 结 点 ， 还 需 检查 其 有 效 性 。 如 以 下 条 件 成 立 ， 则 ARP 结 点 是 
AAH: 

1) 结 点 是 永久 有 效 的 (时 限 值 为 0)， 或 尚未 超时 ; 

2) 由 rt_gateway 指 向 的 插口 地 址 结构 的 sdl_family 字 有 段 为 AF_LINK; 

3) 链 路 层 地 址 长 度 值 (s91._alen) 不 等 于 0。 

arptfree 使 一 个 仍 被 引用 的 ARP 结 点 失效 的 方法 是 将 sd1_alen 值 置 0。 如 果 结 点 是 有 
效 的 ， 则 将 sockaddqr_dl 中 的 以 太 网 地 址 拷贝 到 desten， 函 数 返 回 1。 

4. 只 保持 最 近 的 IP 数 据 报 
292-299 此 时 ， 已 经 有 了 ARP 结 点 ， 但 它 没有 一 个 有 效 的 以 太 网 地 址 ， 因 此 ， 必 须发 送 一 
个 ARP 请 求 。 将 1a_hold 指 针 指向 mbuf， 同 时 也 就 释放 了 刚才 1a_hold 所 指 的 内 容 。 这 意味 
着 ， 在 发 送 ARP 请 求 到 收 到 ARP 回 答 之 间 ， 如 果 有 多 个 发 往 同 一 目的 地 的 IP 数 据 报 要 发 送 ， 
只 有 最 近 的 一 个 IP 数 据 报 才 被 1a_hold 保 留 ， 之 前 的 全 部 丢弃 。NFS 就 是 这 样 的 一 个 例子 ， 
如 果 NFS 要 传送 一 个 8500 字 节 的 IP 数 据 报 ， 需 要 将 其 分 割 成 6 个 分 片 。 如 果 每 个 分 片 都 在 发 送 
ARP 请 求 到 收 到 ARP 回 答 之 间 由 ip_output 送 往 ether_output， 那 么 前 5 个 分 片 将 被 丢弃 ， 


£21X ARP: Wahi 561 


当 收 到 ARP 回 答 时 ， 只 有 最 后 一 个 分 片 被 保留 了 下 来 。 这 会 使 NFS 超 时 ， 并 重 发 这 6 个 分 片 。 

5. 发 送 ARP 请 求 ， 但 避免 ARP 洪 泛 
300-314 RFC 1122 要 求 ARP 避 免 在 收 到 ARP 回 答 之 前 以 过 高 的 速度 对 一 个 以 太 网 地 址 重 发 
ARP 请 求 。NeV3 采 用 以 下 方法 来 避免 ARP 洪 证 : 

。NeU3 不 在 同一 秒 钟 内 发 送 多 个 对 应 同一 目的 地 的 ARP 请 求 ; 

。 如 果 在 连续 5 个 ARP 请 求 (也 就 是 5 秒 钟 ) 后 还 没有 收 到 回答 ， 路 由 结 点 的 RTF_REJECT 标 

志 置 1， 时 限 设 为 往 后 的 20 秒 。 这 会 使 sther_output 在 20 秒 内 拒绝 发 往 该 目的 地 址 的 

IP 数 据 报 ， 并 返回 EHOSTDOWN 或 EHOSTUNREACH( 如 图 4-15 所 示 )。 

。20 秒 钟 后 ，arpresolve 会 继续 发 送 该 目的 主机 的 ARP 请 求 。 

如 果 时 限 值 不 等 于 0( 非 永久 性 结 点 )， 则 清除 RTF_REJECT 标 志 ， 该 标志 是 在 早 些 时 候 为 
避免 ARP 洪 泛 而 设置 的 。 计 数 器 1a_asked 记 录 的 是 连续 发 往 该 目的 地 址 的 ARP 请 求 数 。 如 
果 计 数 器 值 为 0 或 时 限 值 不 等 于 当前 时 钟 (只 需 看 一 下 当前 时 钟 的 秒 钟 部 分 )， 那 么 需要 再 发 送 
一 个 ARP 请 求 。 这 就 避免 了 在 同一 秒 钟 内 发 送 多 个 ARP 请 求 。 然 后 将 时 限 值 设 为 当前 时 钟 的 
秒 钟 部 分 (也 就 是 微 秒 部 分 ，time_tv_usec 被 忽略 )。 

将 1a_asked 所 含 计数 器 值 与 限定 值 5(arp_maxtries) 比 较 ， 然 后 加 1。 如 果 小 于 5， 则 
arpwhohas 发 送 ARP 请 求 ; 如 果 等 于 5， 则 ARP 已 经 达到 了 限定 值 : 将 RTF_REJECT 标 志 置 1， 
时 限 值 置 为 往 后 的 20 秒 钟 ， la_asked 计 数 器 值 复位 为 0。 

图 21-25 显 示 了 一 个 例子 ， 进 一 步 解释 了 arpresolve 和 ether_output 为 了 避免 ARP 
烘 泛 所 采用 的 算法 。 


数据 报 数 1+ 2 3 4 5 
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图 21-25 避免 ARP 洪 泛 所 采用 的 算法 


图 中 总 共 显示 了 26 秒 的 时 间 ， 从 10 到 36。 我 们 假定 有 一 个 进程 每 隔 0.5 秒 发 送 一 个 也 数据 
报 ， 也 就 是 说 ， 一 秒 钟 内 有 两 个 数据 报 等 待 发 送 。 数 据 报 依次 被 标号 为 1~52。 我 们 还 假定 目 
的 主机 已 经 关闭 ， 所 以 收 不 到 ARP 回 答 。ARP 将 采取 以 下 行动 : 
。 假 定 当 进程 写 数据 报 1 时 1a_asked 的 值 为 0。1la_hold 设 为 指向 数据 报 1，rt_expire 
值 设 为 当前 时 钟 (10)，1la_asked 值 变 为 1， 发 送 ARP 请 求 。 函 数 返 回 0。 ` 
。 进 程 写 数据 报 2 时 ， 丢 弃 数 据 报 1，1la_ho1ld 指 向 数据 报 2。 由 于 rt_expire 值 等 于 当 
前 时 钟 (10)， 所 以 不 发 送 ARP 请 求 ， 函 数 返 回 ， 返 回 值 为 0。 
。 进 程 写 数据 报 3 时 ， 丢 弃 数 据 报 2，1a_ho1d 指 向 数据 报 3 。 由 于 当前 时 钟 (1 不 等 于 
rt_expire(10)， 所 以 将 rt_expire 设 为 11。la_asked 值 为 1!， 小 于 5， 所 以 发 送 
ARP 请 求 ， 并 将 1a_asked 值 置 为 2。 
。 进 程 写 数据 报 4 时 ， 丢 弃 数 据 报 3，1a_hold 指 向 数据 报 4。 由 于 rt_expire 值 等 于 当 
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前 时 钟 (11)， 所 以 无 须 其 他 动作 ， 函 数 返回 0。 

“对 于 数据 报 5~10， 情 况 都 是 一 样 的 。 在 数据 报 9 到 达 后 ， 发 送 ARP 请 求 后 ，1a_asked 
值 被 设 为 5; 

* 进程 写 数据 报 11 时 ， 丢 弃 数 据 报 10，1a_hold 指 向 数据 报 11。 当 前 时 钟 (15) 不 等 于 
rt_expire(14)， 所 以 将 rt_expire 的 值 设 为 15。 此 时 1a_asked 的 值 不 再 小 于 5， 
ARP 避 免 烘 泛 的 算法 开始 作用 : RTF_REJECT 标 志 位 置 1，rt_expire 的 值 被 设 为 
35( 即 往 后 20 秒 )，1a_asked 的 值 设 为 0， 函 数 返 回 0。 

。 进 程 写 数据 报 12 时 ，ether_output 注 意 到 RTF_REJECT 标 志 位 为 1， 而 且 当 前 时 钟 小 
于 rt_expire(35)， 因 此 ， 返 回 EHOSTDOWN 给 发 送 者 (通常 是 ijp_output)。 

。 从 数据 报 13 到 50， 都 返回 EHOSTDOWN 给 发 送 者 。 

* 当 进程 写 数 据 报 51 时 ， 尽 管 此 时 的 RTF_REJECT 标 志 位 仍然 为 !1， 但 当前 时 钟 的 值 (35) 
不 再 小 于 rt_expire(35)， 因 此 不 会 返回 出 错 信 息 。 调 用 arpresolve， 整 个 过 程 重 
新 开始 ，5 秒 钟 内 发 送 5 个 ARP 请 求 ， 然 后 是 20 秒 钟 的 等 待 ， 直 到 发 送 者 放弃 或 目的 主机 
响应 ARP 请 求 。 


21.11 arplookup 函 数 


arplookup 国 数 调用 选 路 函数 ztalloc1 在 Internet 路 由 表 中 查找 ARP 结 点 。 我 们 已 经 看 
到 过 3 次 调用 arpljookup 的 情况 : 
1) 在 in_arpinput 中 ， 在 接收 到 ARP 分 组 后 ， 对 应 源 卫 地 址 查找 或 创建 一 个 ARP 结 点 。 
2) 在 in_arpinput 中 ， 接 收 到 ARP 请 求 后 ， 查 看 是 否 存在 目的 硬件 地 址 的 代理 ARP 结 
3) 在 arpresolve 中 ， 查 找 或 创建 一 个 对 应 待 发 送 数据 报 了 一 地 址 的 ARP 结 点 。 
如 果 arplookup 执 行 成 功 ， 则 返回 一 个 指向 相应 11info_arp 结 构 的 指针 ， 否 则 返回 一 
个 空 指针 。 
arplookup 带 有 三 个 参数 ， 第 一 个 参数 是 目的 IP 地 址 ;第 二 个 参数 是 个 标志 ， 为 真 时 表 
示 若 找 不 到 相应 结 点 就 创建 一 个 新 的 结 点 ， 第 三 个 参数 也 是 一 个 标志 ， 为 真 时 表示 查找 或 创 
建 代理 ARP 结 点 。 
代理 ARP 结 点 通过 定义 一 个 不 同形 式 的 Internet 插 口 地 址 结构 来 处 理 ， 即 sockaddr_ 
inarp 结 构 ， 如 图 21-26 所 示 。 该 结构 只 在 ARP 中 使 用 。 


- if ether.h 
111 struct sockaddr inarp ( 
112 u_char sin len; /* sizeof(struct sockaddr inarp) = 16 */ 
113 u_char sin family; /* AF INET */ 
114 u short sin port; 
115 struct in addr sin, addr; /* IP address */ 
116 struct in_addr sin,srcaddr; /* not used */ 
117 u short sin tos; | /* not used */ | 
118 u short sin other; /* 0 or SIN PROXY */ 
1» if etherh 


图 21-26 sockaddr inarpf£&*j 


111-119 ”前面 8 个 字 节 与 sockaddr_in 结 构 相 同 ，s in_family 被 设 为 AF_INET。 最 后 8 
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个 字 节 有 所 不 同 : sin_srcaddr、sin_tos 和 sin_other 成 员 。 当 结 点 作为 代理 结 点 时 ， 
只 用 到 sin_other 成 员 ， 并 将 其 设 为 SIN_PROXY(1)。 
E21-27565& f arplookuptR A. 


: if. ether.c 
480 static struct llinfo arp * 
481 arplookup(addr, create, proxy) 
482 u,long addr; 
483 int create, proxy; 
484 ( 
485 struct rtentry *rt; 
486 Static struct sockaddr, inarp sin = 
487 {sizeof (sin), AF INET); 
488 sin.sin, addr.s addr = addr; 
489 Sin.sin other = proxy ? SIN, PROXY : 0; 
490 rt - rtallocl((struct sockaddr *) &sin, create); 
491 if (rt == 0) 
492 return (0); 
493 rt-»rt refcnt--; 
494 if ((rt-»rt flags & RTF GATEWAY) || (rt-»rt flags & RTF LLINFO) == 0 |] 
495 rt-»rt gateway-»sa; family !- AF LINK) ( 
496 if (create) 
497 log(LOG DEBUG, "arptnew failed on %x\n", ntohl(addr)); 
498 return (0); 
499 H 
500 return ((struct llinfo arp *) rt-»rt llinfo); 
501 ) 

if ether.c 


图 21-27 arplookup 函 数 : 在 路 由 表 中 查找 ARP 结 点 


1. 初始 化 sockaddr_inarp 结 构 ， 准 备查 找 
480-489 sin_addr 成 员 设 为 将 要 查找 的 IP 地 址 。 如 果 proxy 参 数值 不 为 0， 则 
sin_other 成 员 设 为 STN_PROXY; 否则 设 为 0。 

2. 路 由 表 中 查找 结 点 
490-492 rtallocl 在 Internet 路 由 表 中 查找 IP 地 址 ， 如 果 create 参 数值 不 为 0， 就 创 
建 一 个 新 的 结 点 。 如 果 找 不 到 结 点 ， 则 销 数 返回 值 为 0( 空 指针 )。 

3. 减少 路 由 表 结 点 的 引用 计数 值 
493 如果 找到 了 结 点 ， 则 减少 路 由 表 结 点 的 引用 计数 。 因 为 ， 此 时 ARP 不 再 被 认为 像 运输 层 一 
样 “ 持 有 ”路 由 表 结 点 ， 因 此 ， 路 由 表 查 找 时 对 rt_refcnt 计 数 的 递增 ， 应 在 这 里 由 ARP 取 消 。 
494-499 如 果 将 标志 RTE_GRATEWAY 置 位 ， 或 者 标志 RTEF_LLINEFO 没 有 置 位 ， 或 者 由 
rt_gateway 指 向 的 插口 地 址 结构 的 地 址 族 字段 值 不 是 AF_LINK， 说 明 出 了 某 些 差错 ， 返 回 
一 个 空 指针 。 如 果 结 点 是 这 样 创 建 的 ， 应 创建 一 个 记录 报 文 。 


记录 报 文 中 对 arPtnew 的 注释 是 针对 老 版 本 Net2 中 创建 ARP 结 点 的 。 
如 果 rtallocl 由 于 匹 配 结 点 的 RTF_CLONING 标 志 置 位 而 创建 一 个 新 的 结 上 点， 那么 函数 
arp_rtrequest (21.13 节 ) 也 要 被 rtrequest 调 用 。 
21.12 代理 ARP 


Net/3 支 持 代理 ARP， 有 两 种 不 同类 型 的 代理 ARP 结 点 ， 可 以 通过 arp 命 令 及 pub 选 项 将 
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它们 加 入 到 路 由 表 中 。 添 加 代理 ARP 选 项 会 使 arp_rtrequest 主 动 发 送 动 态 联 编 信息 (如 图 
21-28 所 示 )， 因 为 在 创建 结 点 时 RTF_ANNOUNCE 标 志 位 被 置 1。 

代理 ARP 结 点 的 第 一 种 类 型 : 它 允 许 将 网 络 内 的 某 一 主机 的 IP 地 址 填 入 到 ARP 高 速 缓存 
内 。 硬 件 地 址 可 以 设 为 任意 值 。 这 种 结 点 加 入 到 路 由 表 中 时 使 用 了 直接 的 撩 码 0xffffffft。 
加 掩 码 的 目的 是 即使 插口 地 址 的 SIN_PROXY 标 志 位 为 1， 在 调用 图 21-27 中 的 rtalloc1l 时 能 
与 该 结 点 匹配 。 于 是 在 调用 图 21-20 中 的 arplookup 时 也 能 与 该 结 点 匹配 ， 目 的 地 址 的 
SIN_PROXY 置 位 。 

如 果 本 网 中 的 主机 HI 不 能 实现 ARP， 那 么 可 以 使 用 这 种 类 型 的 代理 ARP 结 点 。 作 为 代理 
的 主机 代替 H1 回 答 所 有 的 ARP 请 求 ， 同 时 提供 创建 代理 ARP 结 点 时 设 定 的 硬件 地 址 (比如 可 以 
是 HI 的 以 太 网 地 址 )。 这 种 类 型 的 结 点 可 以 通过 arp -a 命令 查看 ， 它 带 有 “published” 符 号 。 

第 二 种 类 型 的 代理 ARP 结 点 用 于 已 经 存 有 路 由 表 结 点 的 主机 。 内 核 为 该 目的 地 址 创建 另 
外 一 个 路 由 表 结 点 ， 在 这 个 新 的 结 点 中 含有 链 路 层 的 信息 (如 以 太 网 地 址 ) 。 该 新 结 点 中 
sockaddr inarp 结构 (图 21-26) 的 sin_otner 成 员 的 SIN_PROXY 标 志 置 位 。 回 想 一 下 ， 
搜索 路 由 表 时 是 比较 12 字 节 的 Internet 揪 口 地 址 (图 18-39)。 只 有 当 该 结构 的 最 后 8 字 节 非 零 时 ， 
才 会 用 到 SIX_PROXY 标 志 位 。 当 arplookup 指 定 送 往 rtallocl 的 结构 中 的 sin_othez 成 
员 中 SIN_PROXY 的 值 时 ， 只 有 路 由 表 中 那些 匹配 的 结 点 的 SIN_PROXY 标 志 置 位 。 

这 种 类 型 的 代理 ARP 结 点 通常 指明 了 作为 代理 ARP 服 务 器 的 以 太 网 地 址 。 如 果 某 代理 
ARP 结 点 是 为 主机 HD 创 建 的， 一 般 有 以 下 步骤 : 

1) 代理 服务 器 收 到 来 自主 机 HS 的 查找 HD 硬 件 地 址 的 广播 ARP 请 求 ， 主 机 HS 认为 HD 在 本 
地 网 上 ; 

2) 代理 服务 器 回答 请 求 ， 并 提供 本 机 的 以 太 网 地 址 ; 

3) HS 将 发 往 HD 的 数据 报 发 送 给 代理 服务 器 ; 

4) 收 到 发 往 HD 的 数据 报 后 ， 代 理 服 务 器 利用 路 由 表 中 关于 HP 的 信息 将 数据 报 转发 给 HD。 

路 由 器 netb 使 用 这 种 类 型 的 代理 ARP 结 点 ， 见 卷 1 4.6 节 中 的 例子 。 可 以 通过 命令 arp - 
a 来 查看 这 些 带 有 “published (proxy only)” 的 结 点 。 


21.13 arp_rtreduest 函 数 


图 21-3 简 要 显示 了 ARP 函 数 和 选 路 函数 之 间 的 关系 。 在 ARP 中 ， 我 们 将 调用 两 个 路 由 表 
mS: 
1) arplookup 调 用 rtallocl 查 找 ARP 结 点 ， 如 果 找 不 到 匹配 结 点 ， 则 创建 一 个 新 的 
ARP 结 点 。 
如 果 在 路 由 表 中 找到 了 匹配 结 点 ， 且 该 结 点 的 RTEF_CLONING 标 志 位 没有 置 位 
( 即 该 结 点 就 是 目的 主机 的 结 点 )， 则 返回 该 结 点 。 如 果 RTF_CLONING 标 志 位 被 置 位 ， 
rtalloc1l 以 RTM_RESOLVEB 命 令 为 参数 调用 rtrequest。 图 18-2 中 的 
140.252.13.33 和 140.252.13.34 结 点 就 是 这 么 创建 的 ， 它 们 是 从 140.252.13.32 的 结 点 复 
制 而 来 的 。 
2) arptfreelRTM_DELETE 命 令 为 参数 调用 rtrequest， 删 除 对 应 ARP 结 点 的 路 由 表 
结 点 。 
此 外 ，arp 命 令 通过 发 送 和 接收 路 由 插口 上 的 路 由 报 文 来 操纵 ARP 高 速 缓存 。arP 以 命令 
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RTM_RESOLVE、RTM_DELETE 和 RT_GET 为 参数 发 布 路 由 信息 。 前 两 个 参数 用 于 调用 
rtredquest， 第 三 个 参数 用 于 调用 rtalloc1l。 

最 后 ， 当 以 太 网 设备 驱动 程序 获得 了 赋予 该 接口 的 下 地 址 后 ， ftinit 增 加 一 个 网 络 路 由 。 
于 是 rtredauest 图 数 被 调用 ， 参 数 是 RTM_ADD， 标 志 位 是 RTEF_UP 和 RTF_CLONING。 图 18- 
2 中 140 252 13 32 结 点 就 是 这 么 创建 的 。 

在 第 19 章 中 我 们 讲 过 ， 每 一 个 1faddr 结 构 都 有 一 个 指向 函数 (i fa_rtrequest 成 员 ) 的 
指针 ， 该 函数 在 创建 或 删除 一 个 路 由 表 结 点 时 被 自动 调用 。 在 图 6-17 中 ， 对 于 所 有 以 太 网 设备 ， 
in_ifinitk 将 该 指针 指向 arp_rtrequest 国 数 。 因 此 ， 当 调用 路 由 函数 为 ARP 创 建 或 删除 
路 由 表 结 点 了 时， 总 会 调用 arp_rtrequest。 当 任意 路 由 表 函 数 被 调用 时 ，arp_rtrequest 
说 数 的 作用 是 做 各 种 初始 化 或 退出 处 理 所 需 的 工作 。 例 如 : 当 创 建新 的 ARP 结 点 时 ， 
arp_rtrequest 内 要 为 11ijnfo_arp 结 构 分 配 内 存 。 同 样 ， 当 路 由 函数 处 理 完 一 个 
RTM_DELETE 命 令 后 ，arp_rtrequest 的 工作 是 删除 11info_arp 结 构 。 

图 21-28 显 示 了 arp_rtredquest 国 数 的 第 一 部 分 。 


if ether.c 
92 void f- 

93 arp_rtrequest (req, rt, sa) 

94 int req; 


95 struct rtentry *rt; 
96 struct sockaddr *sa; 


97 ( 

98 struct sockaddr *gate - rt-»rt gateway; 

99 struct llinfo,.arp *la = (struct llinfo arp *) rt-»rt llinfo; 
100 static struct sockaddr dl null,sdl = 

101 {sizeof (null sdl), AF LINK); 

102 if (larpinit done) ( 

103 arpinit done - 1; 

104 timeout(arptimer, (caddr t) 0, hz); 

105 ) 

106 if (rt-»rt flags & RTF GATEWAY) 

107 return; 

108 switch (req) ( 

109 case RTM ADD: 

110 /* 

111 * XXX: If this is a manually added route to interface 
112 * such as older version of routed or gated might provide, 
113 * restore cloning bit. 

114 */ 

115 if ((rt-»rt flags & RTF, HOST) == 0 && 

116 SIN(rt mask(rt))-»sin addr.s addr !- Oxffffffff) 
117 rt-»rt flags |- RTF CLONING; 

118 if (rt-»rt flags & RTF CLONING) { 

119 /* 

120 * Case 1: This route should come from a route to iface. 
121 */ 

122 rt setgate(rt, rt key(rt), 

123 (struct sockaddr *) &null,sdl); 

124 gate - rt-»rt gateway; 

125 SDL(gate)-»sdl, type = rt-»rt ifp-»if type: 

126 SDL(gate)-»sdl index = rt-»rt ifp-»if index; 

127 rt-»rt expire - time.tv sec; 


图 21-28 arp rtrequestHX*: RTM_ADD 命 令 
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128 break; 

129 ) : 

130 /* Announce a new entry if requested. */ 

131 if (rt-»rt flags & RTF, ANNOUNCE) 

132 arprequest((struct arpcom *) rt-»rt ifp, 

133 &SIN(rt, key (rt))-»sin  addr.s addr, 
134 &SIN(rt, key (rt))-»sin, addr.s, addr, 
135 {u_char *) LLADDR(SDL(gate))); 

136 /* FALLTHROUGH */ 


if. ether.c 
图 21-28 (X) 


1. 初始 化 ARP timeout; 
92-105 第 一 次 调用 arp_rtrequest 函 数 时 (系统 初始 化 阶段 ， 在 对 第 一 个 以 太 网 接口 赋 下 
地 址 时 )，timeout 函 数 在 一 个 时 钟 滴 答 内 调用 arptimer 函 数 。 此 后 ，ARP 定 时 器 代码 每 5 
分 钟 运行 一 次 ， 因 为 arptimer 总 是 要 调用 timeout 的 。 

2. 忽略 间接 路 由 
106-107 如 果 将 标志 RTF_GATEWAY 置 位 ， 则 函数 返回 。RTF_GATEWAY 标 志 表 明 该 路 由 表 
结 点 是 间接 的 ， 而 所 有 ARP 结 点 都 是 直接 的 。 
108 一 个 带 有 三 种 可 能 的 switch 语 名 : RTM_ADD、RTM_RESOLVE 和 RTM_DELETE (后 两 
种 在 后 面 的 图 中 显示 )。 

3. RTM_ADD 命 令 
109 RTM_ADD 命 令 出 现在 以 下 两 种 情况 中 : 执行 arp 命 令 手 工 创建 ARP 结 点 或 者 rtinit 函 
数 对 以 太 网 接口 赋 卫 地 址 (图 21-3)。 

4. 向 后 兼容 
110-117 车 标 志 RTF_HOST 没 有 置 位 ， 说 明 访 路 由 表 结 点 与 一 个 掩 码 相关 (也 就 是 说 是 网 络 
路 由 ， 而 非 主 机 路 由 )。 如 果 掩 码 不 是 全 1， 那 么 该 结 点 确实 是 某 一 接口 的 路 由 ， 因 此 ， 将 标 
志 RTF_CLONING 置 位 。 如 注释 中 所 述 ， 这 是 为 了 与 某 些 旧版 本 的 路 由 守护 程序 兼容 。 此 外 ， 
/etc/netstart 中 的 命令 : 

route add -net 224.0.0.0 -interface bsdi 
为 图 18-2 所 示 网 络 创建 带 有 RTF_CLONING 标 志 的 路 由 表 结 点 。 

5. 初始 化 到 接口 的 网 络 路 由 结 点 
118-126 ”车 标志 RTF_CLONING(in_ifinit 为 所 有 以 太 网 接口 设置 该 标志 ) 置 位 ， 那 么 该 
路 由 表 结 点 是 由 ztinit 添 加 的 。rt_setgate 为 sockaddr_d1 结 构 分 配 空间 ， 该 结构 由 
rt_gateway 指 针 所 指 。 与 图 21-1 中 140.252.13.32 的 路 由 表 结 点 相关 的 就 是 该 数据 链 路 插口 
地 址 结构 。sdl_family 和 sdl_len 成 员 的 值 是 根据 静态 定义 的 nul1_sd 而 初始 化 的 ， 
sdl_type( 可 能 是 IFT_ETHER) 和 sdl_index 成 员 的 值 来 自 接口 的 jfnet 结 构 。 该 结构 不 
包含 以 太 网 地 址 ，sdl_alen 成 员 的 值 为 0。 
127-128 ”最 后 将 时 限 值 设 为 当前 时 间 ， 也 就 是 结 点 的 创建 时 间 ， 执 行 break 后 返回 。 对 于 
在 系统 初始 化 时 创建 的 结 点 ， 它 们 的 rmx_expire 值 为 系统 启动 的 时 间 。 注 意 ， 图 21-1 中 该 
路 由 表 结 点 没有 相应 的 11info_arp 结 构 ， 所 以 它 不 会 被 arptimer 处 理 。 但 是 要 用 它 的 
sockaddr_qd1l 结 构 ， 对 于 以 太 网 中 特定 主机 的 路 由 结 点 来 说 ， 要 复制 的 是 rt_gateway 结 
构 ， 用 RTM_RESOLVE 命 令 参 数 创建 路 由 表 结 点 时 ，rtrequest 复 制 该 结构 。 此 外 ， 
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netstat 程 序 将 sdl_index 的 值 输出 为 1 ink#n， 见 图 18-2。 

6. 发 送 免 费 ARP 请 求 
130-135 车 将 标志 RTF_ANNOUNCE 置 位 ， 则 该 结 点 是 由 arp 命 令 带 pub 选 项 创建 的 。 该 选 
项 有 两 个 分 支 : (1) sockadqdr_inarp 结 构 中 sin_other 成 员 的 SIN_PROXY 标 志 被 置 位 ; 
(2) 标 志 RTF_ANNOUNCE 被 置 位 。 因 为 标志 RTF_ANNOUNCE 被 置 位 ， 所 以 arprequest 广 播 
免费 ARP 请 求 。 注 意 ， 第 二 个 和 第 三 个 参数 是 相同 的 ， 即 该 ARP 请 求 中 ， 发 送 方 IP 地 址 和 目 
的 方 下 地 址 是 一 样 的 。 

136 继续 执行 针对 RTM_RESOLVE 命 令 的 case 语 句 。 

图 21-29 显 示 了 arp_rtredquest 国 数 的 第 二 部 分 ， 处 理 RTM_RESOLVE 命 令 。 当 
rtallocl 找 到 一 个 RTF_CLONING 标 志 位 置 位 的 路 由 表 结 点 且 rtallocl 的 第 二 个 参数 值 
(arplookup 的 create 参 数 ) 不 为 0 时 ， 调 用 该 命令 。 需 要 分 配 一 个 新 的 11info_arp 结 构 ， 
并 将 其 初始 化 。 


if ether.c 
137 case RTM, RESOLVE: 
138 if (gate-»sa family !- AF LINK |l 
139 gate-»sa len < sizeof (null sd1)) ( 
140 log(LOG DEBUG, "arp rtrequest: bad gateway value"); 
141 break; 
142 } 
143 SDL(gate)-»sdl type = rt-»rt,.ifp-»if type; 
144 SDL(gate)-»sdl, index = rt-»rt, ifp-»if index; 
145 if (la != 0) 
146 break; /* This happens on a route change */ 
147 /* ` 
148 * Case 2: This route may come from cloning, or a manual route 
149 * add with a LL address. 
150 */ 
151 . R Malloc(la, struct llinfo arp *, sizeof(*1la)); 
152 rt-»rt llinfo - (caddr t) la; 
153 if (la == 0) ( 
154 log(LOG,DEBUG, "arp rtrequest: malloc failedMn"); 
155 break; 
156 H 
157 arp.inuse**, arp allocated«*; 
158 Bzero(la, sizeof(*1a)); 
159 la-»1la rt = rt; 
160 rt-»rt flags |- RTF LLINFO; 
161 insque(la, &llinfo arp); 
162 if (SIN(rt key(rt))-»sin addr.s.addr == 
163 (IA SIN(rt-»rt ifa))-»sin, addr.s addr) ( 
164 /* 
165 * This test used to be 
166 * if (loif.if flags & IFF UP) 
167 * It allowed local traffic to be forced 
168 : * through the hardware by configuring the loopback down. 
169 * However, it causes problems during network configuration 
170 * for boards that can't receive packets they send. 
171 * It is now necessary to clear "useloopback" and remove 
172 * the route to force traffic out to the hardware. 
173 */ 
174 rt-»rt, expire = O0; 


图 21-29 arp rtrequestH Sy: RTM_RESOLVE 命 令 
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175 Bcopy(((struct arpcom *) rt-»rt ifp)-»ac enaddr, 
176 LLADDR(SDL(gate)), SDL(gate)-»sdl alen = 6); 
177 if (useloopback) 
178 rt-»rt ifp - &loif; 
179 } 
180 break; . 
if ether.c 
图 21-29 ( 续 ) 


7. 验证 sockaddr_dl 结 构 
137-144 ”验证 rt_gateway 指 针 所 指 的 scckaddr_dl 结 构 的 sa_family 和 sa_len 成 员 
的 值 。 接 口 类 型 (可 能 是 IFT_ETHER) 和 索引 值 填 和 人 新 的 sockadar._ql 结 构 。 

8. 处 理 路 由 变化 
145-146 正常 情况 下 ， 该 路 由 表 结 点 是 新 创建 的 ， 并 没有 指向 一 个 11info_arp 结 构 。 如 
果 1a 指 针 非 空 ， 则 在 路 由 已 发 生 了 变化 时 调用 arp_rtrequest。 此 时 11info_arp 已 经 分 
配 ， 执 行 break， 国 数 返 回 。 

9. 初始 化 11info_arp 结 构 
147-158 ”分配 一 个 11info_arp 结 构 ，rt_11info 中 存 有 指向 该 结构 的 指针 。 统 计 值 变 
量 arp_inuse 和 arp_allocated 各 加 1，11info_arp 结 构 置 0。 将 1a_hold 指 针 置 空 ， 
la_asked 值 置 0。 
159-161 将 rt 指针 存储 于 11info_arp 结 构 中 ， 置 RTF_LLINFO 标 志 位 。 如 图 18-2 所 示 ， 
ARP 创 建 的 三 个 结 点 140.252.13.33、 140.2$2.13.34 和 140.252.13.35 都 有 L 标 志 ， 和 240.0.0.1 一 
样 。arp 程 序 只 检查 该 标志 (图 19-36)。 最 后 insque 将 11info_arp 加 入 到 链接 表 的 首部 。 

就 这 样 创建 了 一 个 ARP 结 点 : rtrequest 创 建 路 由 表 结 点 (经 常 为 以 太 网 克隆 一 个 特定 
网 络 的 结 点 )，arp_rtrequest 分 配 和 初始 化 11info_arp 结 构 。 剩 下 只 需 广播 一 个 ARP 请 
求 ， 在 收 到 回答 后 填充 主机 的 以 太 网 地 址 。 事 件 发 生 的 一 般 次 序 是 : arpresolve 调 用 
arplookup， 于 是 arp_rtrequest 被 调用 (中 间 可 能 跟 有 函数 调用 ， 见 图 21-3)。 当 控 制 返 
回 到 arpresolve 时 ， 发 送 ARP 广 播 请 求 。 

10. 处 理发 给 本 机 的 特例 情况 
162-173 这 是 4.4BSD 新 增 的 测试 特例 部 分 (注释 是 老 版 本 留 下 的 )。 它 创建 了 图 21-1 中 最 右 
边 的 路 由 表 结 点 ， 该 结 点 包含 了 本 机 的 IP 地 址 (140.252.13.35)。if 语 句 检测 它 是 否 等 于 本 机 IP 
地 址 ， 如 等 于 ， 那 么 这 个 刚 创建 的 结 点 代表 的 是 本 机 。 

ll. 将 结 点 置 为 永久 性 ， 并 设置 以 太 网 地 址 
174-176 时 限 值 设 为 0， 意 味 着 该 结 点 是 永久 有 效 的 一 一 永远 不 会 超时 。 从 接口 的 arpconm 
结构 中 将 硬件 地 址 拷贝 至 rt_gateway 所 指 的 sockaddr_dl1 结 构 中 。 

12. 将 接口 指针 指向 环 回 接口 
177-178 车 全 局 变量 usrloopback 值 不 为 0( 默 认为 1， 则 将 路 由 表 结 点 内 的 接口 指针 指向 
环 回 接口 。 这 意味 着 ， 如 果 有 数据 报 发 给 自己 ， 就 送 往 环 回 接口 。 在 4.4BSD 以 前 的 版 本 中 ， 
可 以 通过 /etc/netstart 文 件 中 的 命令 : 


route add 140.252.13.35 127.0.0.1 


来 建立 从 本 机 IP 地 址 到 环 回 接口 的 路 由 。4.4BSD 仍 然 支持 这 种 方式 ， 但 已 不 是 必需 的 了 。 当 
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第 一 次 有 数据 报 发 给 本 机 IP 地 址 时 ， 我 们 刚才 看 到 的 代码 会 自动 创建 一 个 这 样 的 路 由 。 此 外 ， 
这 些 代码 对 于 一 个 接口 只 会 执行 一 次 。 一 旦 路 由 表 结 点 和 永久 性 ARP 结 点 创建 好 后 ， 它 们 就 
不 会 超时 ， 所 以 不 会 再 次 出 现 对 本 机 IP 地 址 的 RTM_RESOLLVE 命 令 。 

arp_rtrequest 函 数 的 最 后 部 分 如 图 21-30 所 示 ， 处 理 RTM_DELETE 请 求 。 从 图 21-3 中 ， 
我 们 可 以 看 到 ， 该 命令 是 由 arp 命 令 产 生 的 ， 用 于 手工 删除 一 个 结 点 ; 或 者 在 一 个 ARP 结 点 
超时 时 由 arptfree 产 生 。 


if. ether.c 
181 case RTM DELETE: 
182 if (la == 0) 
183 break; 
184 arp inuse--; 
185 remque (ia}; 
186 rt->rt_llinfo = 0; 
187 rt-»rt flags &= “RTF_LLINFO; 
188 if (la->la_hold) 
189 m_freem(la~>la_hold}; 
190 Free((caddr t) 1a); 
191 } 
192 ) 
if ether.c 


图 21-30 arp rtrequest 国 数 : RTM_DELETE 命 令 


13. 验证 1a 指 针 
182-183 1a 指针 应 该 是 非 空 的 ， 也 就 是 说 路 由 表 结 点 必须 指向 一 个 11info_arp 结 构 ; di 
则 ， 执 行 break， 函 数 返 癌 。 

14. 删除 11info_arp 结 构 
184-190 统计 值 变 量 arp.inuse 减 1，remque 从 链表 中 删除 11info_arp 结 构 。 
rt_11info 指 针 置 90%， 清除 RTF_LLINFO 标 志 。 如 果 该 ARP 结 点 保持 有 mbuf( 即 该 ARP 请 求 未 
收 到 回答 )， 则 将 mbuf 释 放 。 最 后 释放 11info_arp 结 构 。 

注意 ，switch 语 句 中 没有 包含 default 情 况 ， 也 没有 考虑 RTM_GET 命 令 。 这 是 因为 
arp 程 序 产生 的 RTM_GET 命 令 爹 部 由 route_output 消 数 处 理 ， 并 不 调用 rtrequest。 此 
外 ， 见 图 21-3， 在 RTM_GET 命 令 产生 的 对 rtal1oc1l 调 用 中 ， 指 定 第 二 个 参数 是 0， 所 以 
rtallocl 并 不 调用 rtrequest。 


21.14 ARP 和 多 播 


如 果 一 个 IP 数 据 报 要 采用 多 播 方式 发 送 ，ip_output 检 测 进程 是 否 已 将 某 个 特定 的 接口 
赋予 插口 ( 见 图 12-40)。 如 果 已 经 赋值 ， 则 将 数据 报 发 往 该 接口 ， 否 则 ，ip_output 利 用 路 由 
表 选 择 输出 接口 ( 见 图 8-24)。 因 此 ， 对 于 具有 多 个 多 播发 送 接口 的 系统 来 说 ，IP 路 由 表 应 指定 
每 个 多 播 组 的 默认 接口 。 

在 图 18-2 中 我 们 看 到 ， 路 由 表 中 有 一 个 结 点 是 为 网 络 224.0.0.0 创 建 的 ， 该 结 点 具有 “flag” 
标志 。 所 有 以 224 开 头 的 多 播 组 都 以 该 结 点 指定 的 接口 (le0) 为 默认 接口 。 对 于 其 他 的 多 播 组 
(以 225~239 开 头 )， 可 以 分 别 创建 新 的 路 由 表 结 点 ， 也 可 以 对 某 个 指定 多 播 组 创建 一 个 路 由 表 
结 点 。 例 如 ， 可 以 为 224.0.11( 网 络 定时 协议 ) 创 建 一 个 与 224.0.0.0 不 同 的 路 由 表 结 点 。 如 果 路 
由 表 中 没有 对 应 某 个 多 播 组 的 结 点 ， 同 时 进程 没有 用 IP_MULTICRAST_IF 播 口 选 项 指明 接口 ， 
那么 该 组 的 默认 接口 成 为 路 由 表 中 默认 路 由 的 接口 。 其 实 图 18-2 中 对 应 224.0.0.0 的 路 由 表 结 
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点 并 不 是 必要 的 ， 因 为 默认 接口 就 是 le0。 

如 果 选 定 的 接口 是 以 太 网 接口 ， 则 调用 arpresolve 将 多 播 组 地 址 映射 为 相应 的 以 太 网 
地 址 。 在 图 21-23 中 ， 上 映射 通过 调用 宏 ETHER_MAP_IP._MULTICAST 来 完成 。 该 宏 所 做 的 就 
是 将 该 多 播 组 地 址 的 低 23 位 与 一 个 常量 逻辑 或 (图 12-6)， 了 映射 不 需要 ARP 请 求 和 回答 ， 也 不 需 
要 进入 ARP 高 速 缓 存 。 每 次 需要 映射 时 ， 调 用 该 宏 。 

如 果 多 播 组 是 从 另外 一 个 结 点 复制 得 来 的 ， 那 么 多 播 组 地 址 会 出 现在 ARP 缓 存 里 ， 如 图 
21-5 所 示 。 因 为 这 些 结 点 将 RTF_LLINFO 标 志 置 位 。 它 们 不 会 有 ARP 请 求 和 回答 ， 所 以 说 不 
是 真正 的 ARP 结 点 。 它 们 也 没有 相应 的 链 路 层 地 址 ， 宏 ETHER_MAP_IP_MULTICAST 就 可 以 
完成 映射。 

这 些 多 播 组 的 ARP 结 点 的 时 效 与 正常 的 ARP 结 点 不 同 。 在 为 某 个 多 播 组 创建 一 个 路 由 表 
结 点 上 时， 如 图 18-2 中 的 224.0.0.1，rtrequest 从 被 克隆 的 结 点 中 复制 rt_metrics 结 构 ( 图 
19-9)。 图 21-28 中 ， 网 络 路 由 结 点 的 rmx_expire 值 被 设 为 RTM_ADD 命 令 执行 的 时 间 ， 也 即 
系统 初始 化 的 时 间 。 为 224.0.0.1 设 置 的 结 点 也 设置 为 同样 的 时 间 。 

这 就 意味 着 在 下 次 arptimer 执 行 时 ,对 应 多 播 组 224.0.0.1 的 ARP 结 点 总 是 超时 的 。 BELA, 
当下 一 次 在 路 由 表 中 查找 时 就 需 重新 创建 该 结 点 。 


21.15 小 结 


ARP 提 供 了 于 地 址 到 硬件 地 址 的 映射 ， 本 章 讲述 了 如 何 实现 这 种 映射 。 

Net/3 实 现 与 以 往 的 BSD 版 本 有 很 大 不 同 。ARP 信 息 被 存放 在 多 个 结构 里 面 : 路 由 表 、 数 
据 链 路 插口 地 址 结构 和 11info_arp 结 构 。 图 21-1 显 示 了 这 些 结构 之 间 的 关系 。 

发 送 一 个 ARP 请 求 是 很 简单 的 : 正确 填充 相关 字段 后 ， 将 请 求 广播 发 送出 去 就 行 了 。 处 
理 请 求 就 要 复杂 一 些 ， 因 为 每 个 主机 都 收 到 了 广播 的 ARP 请 求 。 除 了 响应 请 求 外 ， 
in_arpinput 还 要 检测 是 否 有 其 他 主机 正 与 它 使 用 同一 个 卫 地 址 。 因 为 每 一 个 ARP 请 求 中 包 
含 发 送 方 的 下 和 硬件 地 址 ， 所 以 网 络 上 的 所 有 主机 都 可 以 通过 它 来 更 新 自己 的 ARP 结 点 。 

在 局 域 网 中 ，ARP 洪 泛 将 是 一 个 问题 ，Net/3 是 第 一 个 考虑 这 种 问题 的 BSD 版 本 。 对 于 辣 
一 个 目的 地 ， 一 秒 钟 内 只 可 发 送 一 个 ARP 请 求 ， 如 果 连 续 5 个 请 求 都 没有 收 到 回答 、 必 须 暂 停 
20 秒 钟 才 可 再 发 送 去 往 该 目的 地 的 ARP 请 求 。 


习题 


21.1 图 21-17 中 给 局 部 变量 ac 赋值 时 ， 做 过 什么 假设 ? 

21.2 如 果 我 们 先 ping 本 地 以 太 网 的 广播 地 址 ， 之 后 执行 arp -a， 就 可 以 发 现 几乎 所 有 
本 地 以 太 网 上 的 其 他 主机 的 表 项 都 填 入 到 了 ARP 高 速 缓 存 中 。 这 是 为 什么 ? 

21.3 查看 代码 并 解释 为 什么 图 21-19 中 需要 把 sd1_alen 的 值 赋 为 6。 

21.4 在 NeU2 中 有 一 个 独立 于 路 由 表 而 存在 的 ARP 表 ， 每 次 调用 arpresolve 时 ， 都 要 
在 该 ARP 表 中 查找 。 试 与 Net/3 的 方法 比较 ， 哪 个 更 有 效 ? 

21.5. Net/2 中 的 ARP 代 码 显 式 地 设置 ARP 高 速 缓存 中 非 完 整 表 项 的 超时 为 3 分 钟 ， 非 完整 
表 项 是 指正 在 等 待 ARP 回 答 的 表 项 。 但 我 们 从 没有 提 过 Net/3 如 何 处 理 该 超时 ， 那 
么 Net/3 何 时 才 认 为 非 完整 表 项 超时 ? 

21.6 当 Net/3 系 统 作 为 一 个 路 由 器 并 且 导 致 洪 泛 的 分 组 来 自 其 他 主机 了 时， 为 避免 ARP 洪 
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CERERE? 

21.7 图 21-1 中 给 出 的 四 个 rmx_expire 变 量 的 值 是 什么 ? 代码 在 何 处 设置 该 值 ? 

21.8 对 广播 ARP 请 求 的 每 个 主机 ， 本 章 中 引起 要 创建 一 个 ARP 结 点 的 代码 需要 做 哪些 变 
动 ? 

21.9 为 了 验证 图 21-25 中 的 例子 ， 作 者 运行 了 卷 1 附 录 C 的 sock 程 序 ， 每 隔 500 ms 向 本 地 
以 太 网 上 一 个 不 存在 的 主机 发 送 一 个 UDP 数 据 报 (程序 的 -p 选 项 改 为 等 待 的 毫秒 
530. 但 是 在 返回 第 一 个 EHOSTDOWN 差 错 之 前 ,， 仅 无 差错 地 发 送 了 10 个 UDP 数 据 报 ， 
而 不 是 图 21-25 所 示 的 11 个 ， 这 是 为 什么 ? 

21.10 修改 ARP， 使 得 它 在 等 待 ARP 回 答 时 持 有 到 目的 主机 的 所 有 分 组 ， 而 不 是 持 有 最 
近 的 一 个 。 如 何 实现 这 种 改变 ? 是否 像 每 个 接口 的 输出 队列 一 样 ， 需 要 一 个 限 
制 ? 是 否 需 要 改变 数据 结构 ? 


第 22 章 协议 控制 块 


22.1 引言 


协议 层 使 用 协议 控制 块 (PCB) 存 放 各 UDP 和 TCP 插 口 所 要 求 的 多 个 信息 片 。Internet 协 议 维 
护 Internet 协议 控制 块 (Internet protocol control block) 和 TCP 控 制 块 (TCP control block)。 因 为 
UDP 是 无 连接 的 ， 所 以 一 个 端 结 点 需要 的 所 有 信息 都 可 以 在 Internet PCB 中 找到 ; 不 存在 UDP 
控制 块 。 
Internet PCB 含 有 所 有 UDP 和 TCP 端 结 点 共有 的 信息 : 外 部 和 本 地 IP 地 址 、 外 部 和 本 地 端 
号 、IP 首 部 原型 、 该 端 结 点 使 用 的 IP 选 项 以 及 一 个 指向 该 端 结 点 目的 地 址 选 路 表 入 口 的 指针 。 
TCP 控 制 块 包含 了 TCP 为 各 连接 维护 的 所 有 结 点 信息 : 两 个 方向 的 序号 、 窗 口 大 小 、 重 传 次 数 
等 等 。 
本 章 我 们 描述 Net/3 所 用 的 Internet PCB， 在 详细 讨论 TCP 时 再 探讨 TCP 控 制 块 。 我 们 将 研 
究 几 个 操作 Internet PCB 的 函数 ， 会 在 描述 UDP 和 TCP 时 遇 到 它们 。 大 多 数 的 函数 以 in_pcb 
开头 。 
图 22-1 总 结 了 协议 控制 块 以 及 它们 与 file 和 socket 结 构 之 间 的 关系 。 该 图 中 有 几 点 要 
考虑 : 
。 当 socket 或 accept 创 建 一 个 插口 后 ， 插 口 层 生 成 一 个 file 结 构 和 一 个 socket 结 构 。 
文件 类 型 是 DTYPE_SOCKET，UDP 端 结 点 的 插口 类 型 是 SOCK_DGRAM，TCP 端 结 点 的 
插 日 类 型 是 SOCK_STREAM。 
。 然 后 调用 协议 层 。UDP 创 建 一 个 Internet PCB( 一 个 inpcb 结 构 )， 并 把 它 链 接 到 socket 
结构 上 : so_pcb 成 员 指向 inpcb 结 构 ，inp_socket 成 员 指向 socket 结 构 。 
。TCP 做 同样 的 工作 ， 也 创建 它 自己 的 控制 块 (一 个 tcpcb 结 构 )， 并 用 指针 inp_ppcb 和 
t_inpcb 把 它 链接 到 ijnpcb 上 。 在 两 个 UDP inpcb 中 ，inp_ppcb 成 员 是 一 个 空 指针 ， 
因为 UDP 不 负责 维护 它 自己 的 控制 块 。 
。 我 们 显示 的 其 他 四 个 ijnpcb 结 构 的 成 员 ， 从 inp_fadar 到 inp_1lport， 形 成 了 该 端 结 
点 的 插口 对 : 外 部 IP 地 址 和 端口 号 ， 以 及 本 地 IP 地 址 和 端口 号 。 
e UDP 和 TCP 用 指针 inp_next 和 inp_prev 维 护 一 个 所 有 Internet PCB 的 双向 链表 。 它 们 
在 表 头 分 配 一 个 全 局 inpcb 结 构 ( 命 名 为 Ldb 和 tcb)， 在 该 结构 中 只 使 用 三 个 成 员 : 下 
一 个 和 前 一 个 指针 ， 以 及 本 地 端口 号 。 后 一 个 成 员 中 包含 了 该 协议 使 用 的 下 一 个 临时 端 
口号 。 
Internet PCB 是 一 个 传输 层 数据 结构 。TCP、UDP 和 原始 IP 使 用 它 ， 但 IP、ICMP 或 ICMP 
不 用 它 。 
我 们 还 没有 讲 过 原始 IP， 但 它 也 用 Internet PCB 。 与 TICP 和 UDP 不 同 ， 原 始 了 P 在 PCB 中 不 
用 端口 号 成 员 ， 原 始 IP 只 用 本 章 中 提 到 的 两 个 函数 : in_pcballoc 分 配 PCB， 
in_pcbdetach 释 放 PCB。 第 32 章 将 讨论 原始 IP。 
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Internet 协 议 控 制 块 
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t inpcb 


Internet 协 议 控制 块 和 相关 的 TCP 榨 制 块 
图 22-1 Intemet 协 议 控制 块 以 及 与 其 他 结构 之 间 的 关系 
22.2 代码 介绍 
所 有 PCB 函数 都 在 一 个 C 文 件 和 一 个 包含 定义 的 头 文件 中 ， 如 图 22-2 所 示 。 


netinet/in pcb.h in_pcb 结 构 定义 
netinet/in_pcb.c PCB% 


图 22-2 本 章 中 讨论 的 文件 
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22241 全 局 变量 
本 章 只 引入 一 个 全 局 变量 ， 如 图 22-3 所 示 。 


ao p 


图 22-3 本 章 中 引入 的 全 局 变量 












222.2 统计 量 


Internet PCB 和 TCP PCB 都 是 内 核 的 malloc 国 数 分 配 的 M_PCB 类 型 。 这 只 是 内 核 分 配 的 
大 约 60 种 不 同类 型 内 存 的 一 种 。 例 如 ，mbuf 的 类 型 是 M_BUF，socket 结 构 分 配 的 类 型 是 
M SOCKET, 

因为 内 核 保持 所 分 配 的 不 同类 型 内 存 缓存 的 计数 器 ， 所 以 维护 着 几 个 PCB 数 量 的 统计 量 。 
vmstat -~m 命 令 显 示 内 核 的 内 存 分 配 统 计 信息 ，netstat -m 命 令 显示 的 是 mbuf 分 配 统计 


信息 。 
22.3 ”inpcb 的 结构 
图 22-4 是 inpcb 结 构 的 定义 。 这 不 是 一 个 大 结构 ， 只 占 84 个 字 节 。 


42 struct inpcb { in_pcb.h 
43 struct inpcb *inp_next, *inp prev; /* doubly linked list */ 

44 Struct inpcb *inp head; /* pointer back to chain of inpcb's for 

45 this protocol */ 

46 struct in addr inp, faddr; /* foreign IP address */ 

47 u short inp fport; /* foreign port# */ 

48 struct in, addr inp, laddr; /* local IP address */ 

49 u.short inp lport; /* local port# */ 

50 struct socket *inp socket; /* back pointer to socket */ 

51 caddr t inp ppcb; /* pointer to per-protocol PCB */ 

52 struct route inp route; /* placeholder for routing entry */ 

53 int inp flags; /* generic IP/datagram flags */ 

54 struct ip inp ip; /* header prototype; should have more */ 

55 Struct mbuf *inp options; /* IP options */ 

56 struct ip moptions *inp moptions; /* IP muiticast options */ 

RE in pcb.h 


图 22-4 inpcb 结 构 


43~45 inp_next 和 inp_prev 为 UDP 和 TCP 的 所 有 PCB 形 成 一 个 双向 链表 。 另 外 ， 每 个 
PCB 都 有 一 个 指向 协议 链表 表 头 的 指针 (inp_head)。 对 UDP 表 上 的 PCB，inp_head 总 是 指 
向 udb( 图 22-1); 对 TCP 表 上 的 PCB， 这 个 指针 总 是 指向 tcb。 
46-49 下 面 四 个 成 员 inp_faddr、inp_fport、inp_laddr 和 inp._lport， 包含 了 
这 个 IP 端 结 点 的 插口 对 : 外 部 下 地 址 和 端 日 号 ， 以 及 本 地 于 地 址 和 端口 号 。PCB 中 以 网 络 字 节 
序 而 不 是 以 主机 字 节 序 维护 这 四 个 值 。 
运输 层 的 TCP 和 UDP 都 使 用 Internet PCB 。 尽 管 在 这 个 结构 里 保存 本 地 和 外 部 JP 
地 址 很 有 意义 ， 但 端口 号 并 不 属于 这 里 。 闵 口号 及 其 大 小 的 定义 是 由 各 运输 层 协 议 
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指定 的 ， 不 同 的 运输 层 可 以 指定 不 同 的 值 。[Partridge 1987] 提出 了 这 个 问题 ， 其 中 
版 本 1 的 RDP 采 用 8 bit 的 端口 号 ， 需 要 用 8 bit 的 端口 号 重新 实现 几 个 标准 内 核 程 序 。 
版 本 2 的 RDP [Partridge 和 Hinden 1990] 采用 16 bit 庙 口号。 实际 上 ， 和 端口 号 属于 运输 
层 专 用 控制 块 ， 例 如 TCP 的 trpcb。 可 能 会 要 求 采用 一 种 新 的 UDP 专用 的 PCB IE 
这 个 方案 可 行 ， 但 却 可 能 使 我 们 马上 要 讨论 的 几 个 程序 复杂 化 。 . 
50-51 inp_socket 是 一 个 指向 该 PCB 的 socket 结 构 的 指针 ，inp_ppcb 是 一 个 指针 ， 它 
指向 这 个 PCB 的 可 选 运 输 层 专用 控制 块 。 我 们 在 图 22-1 中 看 到 ，inp_ppcb 和 TCP 一 起 指向 对 
应 的 tcpcb， 但 UDP 不 用 它 。socket 和 inpcb 之 间 的 链接 是 双向 的 ， 因 为 有 时 内 核 从 插口 
层 开 始 ， 需 要 对 应 的 Internet PCB( 如 用 户 输出 )， 而 有 时 内 核 从 PCB 开 始 ， 需 要 找到 对 应 的 
socket 结 构 ( 如 处 理 收 到 的 IP 数 据 报 )。 
52 ”如 果 IP 有 一 个 到 外 部 地 址 的 路 由 ， 则 它 被 保存 在 ijpp_route 入 口 处 。 我 们 将 看 到 ， 当 收 
到 一 个 ICMP 重 定向 报 文 时 ， 将 扫描 所 有 Internet PCB， 找 到 那些 外 部 IP 地 址 与 重 定 向 IP 地 址 匹 
配 的 PCB， 将 其 ijnp_route 入 口 标记 成 无 效 。 当 再 次 将 该 PCB 用 于 输出 时 ， 迫 使 PP 重新 找 一 
条 到 该 外 部 地 址 的 新 路 由 。 
53 inp_flags 成 员 中 存放 了 几 个 标志 。 图 22-5 显 示 了 各 标志 。 


INP HDRINCL 进程 提供 整个 IP 首 部 (只 有 原始 插口 ) 
INP_RECVOPTS 把 到 达 IP 选 项 作为 控制 信息 接收 (只 有 UDP， 还 没有 实现 ) 
INP RECVRETOPTS | 把 回答 的 IP 选 项 作为 控制 信息 接收 (只 有 UDPP， 还 没有 实现 ) 
INP RECVDSTADDR | 把 PP 目的 地 址 作为 控制 信息 接收 (只 有 UDP) 


INP CONTROLOPTS INP RECVOPTSIINP-RECVRETOPTS!INP RECVDSTADDR 


图 22-5 inp flagsíü 


54 PCB 中 维护 一 个 IP 首 部 的 备份 ， 但 它 只 使 用 其 中 的 两 个 成 员 ，TOS 和 TTL。TOS 被 初始 化 
为 0( 普 通 业 务 )，TTL 被 运输 层 初 始 化 。 我 们 将 看 到 ，TCP 和 UDP 都 把 TTL 的 默认 值 设 为 64。 
进程 可 以 用 ITP_TOoS 或 ITP_TTL 揪 口 选项 改变 这 些 默 认 值 ， 新 的 值 记 录 在 inpcb-inpP_ip 结 构 
中 。 以 后 ，TCP 和 UDP 在 发 送 IP 数 据 报时 ， 却 把 该 结构 用 作 原 型 IP 首 部 。 

55-56 ”进程 也 可 以 用 IP._OPTIONS 插 口 选项 设置 外 出 数据 报 的 IP 选 项 。 函 数 ip_pcbopts 
把 调用 方 选项 的 备份 存放 在 一 个 mbuf 中 ，inp_options 成 员 是 一 个 指向 该 mbuf 的 指针 。 每 
次 TCP 和 UDP 调 用 ip_output 函 数 时 ， 就 把 一 个 指向 这 些 IP 首 部 的 指针 传 给 IP，IP 将 其 插 到 
出 去 的 IP 数 据 报 中 。 类 似 地 ，inp_moptions 成 员 是 一 个 指向 用 户 下 多 播 选项 备份 的 指针 。 


22.4 in pcballoc 和 in_pcbdetach 函 数 















在 创建 插口 时 ，TCP、UDP 和 原始 IP 会 分 配 一 个 Internet PCB 。 系 统 调 用 socket 发 布 
PRU_ATTACH 请 求 。 在 UDP 情 况 下 ， 我 们 将 在 图 23-33 中 看 到 ， 产 生 的 调用 是 


struct socket *so; 
int error; 


error = in pcballocí(so, &udb); 
E122-6RR in pcballoctHRA. 
1. 4 &PCB, ， 初 始 化 为 堆 
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36 int in_pcb.c 
37 in,pcballoc(so, head) 
38 struct socket *so; 
39 struct inpcb *head; 
40 { 
41 struct inpcb *inp; 
42 MALLOC(inp, struct inpcb *, sizeof(*inp), M PCB, M WAITOK); 
43 if (inp zz NULL) 
44 return (ENOBUFS); 
45 bzero((caddr t) inp, sizeof(*inp)); 
46 inp-»inp head - head; 
47 inp-»inp socket - so; 
48 insque(inp, head); 
49 So-»SO pcb = (caddr.t) inp; 
50 return (0); 
51 } 
in pcb.c 





图 22-6 in_pcballoc 国 数 : 分 配 一 个 Internet PCB 


36-45 in_pcballoc 使 用 宏 MALLOC 调 用 内 核 的 内 存 分 配器 。 因 为 这 些 PCB 总 是 作为 系统 
调用 的 结果 分 配 的 ， 所 以 总 能 等 到 一 个 。 
Net2 和 早期 的 伯克利 版 本 把 Internet PCB 和 TCP PCB 都 保存 在 mbuf 中 。 它 们 的 大 
小 分 别 是 80 和 108 字 节 。Net/3 版 本 中 的 大 小 变 成 了 84 和 140 字 节 ， 所 以 TCP 控 制 块 不 
再 适合 存放 在 mbuf 中 。NeU3 使 用 内 核 的 内 存 分 配器 而 不 是 mbuf 分 配 两 种 控制 块 。 
细心 的 读者 会 注意 到 图 2-6 的 例子 中 ， 为 PCB 分 配 了 17 个 mbuf， 而 我 们 刚刚 讲 到 
NeU3 不 再 用 mbuf 存 放 Internet PCB 和 TCP PCB, 42, NetU365 58 F| mbufj- 2k Unix i, 
的 PCB ， 这 就 是 计数 器 所 指 的 。netstat 输 出 的 mbuf 统 计 信 息 是 针对 内 核 为 所 有 协 
议 族 分 配 的 mbuf， 而 不 仅仅 是 Internet 协 议 族 。 


bzero 把 PCB 设 成 0。 这 非常 重要 ， 因 为 PCB 中 的 IP 地 址 和 端口 号 必须 被 初始 化 成 0。 
1 b. 
252 int m. peoc 
253 in pcbdetach(inp) 

254 struct inpcb *inp; 


255 ( 

256 struct socket *so - inp-»inp socket; 
257 So-»So pcb = 0; 

258 sofree(so); 

259 if (inp-»inp options) 

260 (void) m free(inp-»inp options); 
261 if (inp-»inp route.ro rt) 

262 rtfree(inp-»inp route.ro rt); 
263 ip freemoptions (inp-»inp moptions); 
264 remque (inp); 

265 FREE(inp, M PCB); 

266 ) 


in pcb.c 
图 22-7 in pcbdetachrüZü: 释放 一 个 Internet PCB 


2. 把 结构 链接 起 来 
46-49 in_head 成 员 指向 协议 的 PCB 表 头 (udb 或 tcp)，inp_socket 成 员 指向 socket 结 
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构 ， 新 的 PCB 结 构 被 加 到 协议 的 双向 链表 上 (insque)，socket 结 构 指向 该 PCB。insque 函 
数 把 新 的 PCB 放 到 协议 表 的 表 头 里 。 

在 发 布 PRU_DETACH 请 求 后 ， 释 放 一 个 Internet PCB， 这 是 在 关闭 播 口 时 发 生 的 。 图 22-7 
显示 了 in_pcbdetach 隙 数 ， 最 后 将 调用 它 。 
252-263 socket 结 构 中 的 PCB 指 针 被 设 成 0，sofree 释 放 该 结构 。 如 果 给 这 个 PCB 分 配 
的 是 一 个 有 了 下 选项 的 mbuf， 则 由 m_free 将 其 释放 。 如 果 该 PCB 中 有 一 个 路 由 ， 则 由 rtfree 
将 其 释放 。 所 有 多 播 选 项 都 由 ip_freemoptions 释 放 。 
264-265 remque 把 该 PCB 从 协议 的 双向 链表 中 移 走 ， 该 PCB 使 用 的 内 存 被 返回 给 内 核 。 


22.5 绑 定 、 连 接 和 分 用 


在 研究 绑 定 插口 、 连 接 插口 和 分 用 进入 的 数据 报 的 内 核 函 数 之 前 ， 我 们 先 来 看 一 下 内 核 
对 这 些 动作 施加 的 限制 规则 。 

1. 绑 定 本 地 ]I 了 地 址 和 篇 口 号 

图 22-8 是 进程 在 调用 bina 时 可 以 指定 的 本 地 耳 地 址 和 本 地 端口 号 的 六 种 组 合 。 

前 三 行 通常 是 服务 器 的 一 一 它们 绑 定 革 个 特定 端口 ， 称 为 服务 器 的 知名 端口 (wel-known 
perb， 客 户 都 知道 这 些 端口 的 值 。 后 三 行 通常 是 客户 的 一 一 它们 不 考虑 本 地 的 端口 ， 称 为 临 
时 端口 (ephemeral porD， 只 要 它 在 客户 主机 上 是 唯一 的 。 

大 多 数 服务 器 和 客户 在 调用 bind 时 ， 都 指定 通 配 IP 地 址 。 如 图 22-8 所 示 ， 在 第 3 行 和 第 6 


行 中 ， 用 * 表 示 。 


om 非 零 一 个 本 地 接口， "MB 0 
非 零 一 个 本 地 多 播 组 ， 特 定 端口 
非 零 任何 本 地 接口 或 多 播 组 ， 特 定 端口 


单 播 或 广播 一 个 本 地 接口 ， 内 核 选 择 端 口 
gt 一 个 多 播 组 ， 内 核 选 择 端 晶 
任何 本 地 接口， 内 核 选择 端 日 


图 22-8 binda 的 本 地 IP 地 址 和 本 地 端口 号 的 组 合 


如 果 服 务 器 把 某 个 特定 耳 地 址 绑 定 到 某 个 插口 上 (也 就 是 说 ， 不 是 通 配 地 址 )， 那 么 进入 的 
IP 数 据 报 中 ， 只 有 那些 以 该 特定 IP 地 址 作为 目的 IP 地 址 的 IP 数 据 
播 一 一 都 被 交付 给 该 进程 。 自 然 地 ， 当 进程 把 某 个 特定 单 播 或 广播 卫 地 址 绑 定 到 某 个 播 口 上 
时 ， 内 核验 证 该 IP 地 址 与 一 个 本 地 接口 对 应 。 

尽管 可 能 ， 但 很 少 出 现 客 户 程 序 绑 定 某 个 特定 IP 地 址 的 情况 (图 22-8 中 的 第 4 行 和 第 5 行 )。 
通常 客户 绑 定 通 配 思 地址 (图 22-8 中 的 最 后 一 行 )， 让 内 核 根 据 自己 选择 的 到 服务 器 的 路 由 来 选 
择 外 出 的 接口 。 

图 22-8 没 有 显示 如 果 客 户 程序 试图 绑 定 一 个 已 经 被 其 他 播 口 使 用 的 本 地 端口 时 会 发 生 什 
么 情况 。 默 认 情况 下 ， 如 果 一 个 端口 已 经 被 使 用 ， 进 程 是 不 能 绑 定 它 的 。 如 果 发 生 这 种 情况 ， 
则 返回 EADDRINUSE 差 错 ( 地 址 正在 被 使 用 )。 正 在 被 使 用 (in use) 的 定义 很 简单 ， 就 是 只 要 存 
在 一 个 PCB ， 就 把 该 端口 作为 它 的 本 地 端口 。“ 正 在 被 使 用 ”的 概念 是 相对 于 绑 定 协议 的 : 
TCP 或 UDP， 因 为 TCP 端 口号 与 UDP 端口 号 无 关 。 
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Net3 人 允许 进程 指定 以 下 两 个 插口 选项 来 改变 这 个 默认 行为 : 
SO_REUSEADDR 人 允许 进程 绑 定 一 个 正在 被 使 用 的 端口 号 ， 但 被 绑 定 的 卫 地 址 (包括 通 配 


SO REUSEPORT 


本 市 的 后 面 将 讨论 


地 址 ) 必 须 没 有 被 绑 定 到 同 -- 个 端口 。 

例如 ， 如 果 连 到 的 接口 的 耳 地 址 是 140.252.1.29， 则 一 个 插 只 可 以 被 绑 
定 到 140.252.1.29， 端 口 5555; 另 一 个 播 口 可 绑 定 到 127.0.0.1， 端 口 
5555; 还 有 一 个 插口 可 以 绑 定 到 通 配 IP 地 址 ， 端 口 5555。 在 第 二 种 和 
第 三 种 情况 下 调用 bind 之 前 ， 必 须 先 调用 setsockopt， 设 置 
SO_REUSEADDR M. 

允许 进程 重用 IP 地 址 和 端口 号 ， 但 是 包括 第 一 个 在 内 和 的 各 个 IP 地 址 和 
端口 号 ， 必 须 指定 这 个 插口 选项 。 和 SO_REUSEADDR 一 样 ， 第 一 次 绑 
定 端口 号 时 要 指定 插口 选项 。 

例如 ， 如 果 连 到 的 接口 具有 140.252.1.29 的 了 了 地 址 ， 并 且 某 个 插口 绑 定 
到 140.252.1.29， 端 口 6666， 并 指定 SO_REUSEPORT 插 口 选项 ， 则 另 一 
个 插口 也 可 以 指定 同一 个 揪 口 选项 ， 并 绑 定 140.252.1.29， 端 口 6666。 

人 在 后 一 个 例子 中 ， 当 到 达 一 个 目的 地 址 是 140.252.1.29， 目 的 端口 是 


6666 的 IP 数 据 报 时 ， 会 发 生 什 么 情况 。 因 为 这 两 个 播 口 都 被 绑 定 到 该 端 结 点 上 。 


SO_REUSEPORT 是 Net/3 新 加 上 的 ， 在 4.4BSD 中 是 为 支持 多 播 而 引入 的 。 在 这 个 
版 本 之 前 ， 两 个 播 口 是 不 可 能 绑 定 到 同一 个 了 地 址 和 同一 个 端口 号 的 。 

不 幸 的 是 ，SO_REUSEPORT 不 是 原来 的 标准 多 播 源 程 序 的 内 容 ， 所 以 对 它 的 支 
持 并 不 广泛 。 其 他 支持 多 播 的 系统 ， 如 Solaris 2.x， 让 进程 指定 SO_REUSERADDR 来 表 
明 允 许 把 多 个 端口 练 定 到 同一 下 地 址 和 相同 的 端口 号 。 

2. 连接 一 个 UDP 插口 
我 们 通常 把 connect 系 统 调用 和 TCP 客 户 联系 起 来 ， 但 是 UDP 客户 或 UDP 服务 器 也 可 能 


调用 connect， 为 插口 指定 外 部 IP 地 址 和 外 部 端口 号 。 这 就 限制 插口 必须 只 与 某 个 特定 对 方 
交换 UDP 数 据 报 。 
当 连 接 UDP 插 口 时 ， 


会 有 一 个 副作用 : 本 地 IP 地 址 ， 如 果 在 调用 bind 时 没有 指定 ， 会 自 


动 被 connect 设 置 。 它 被 设 成 由 理 选 路 指定 对 方 所 选择 的 本 地 接口 地 址 。 
图 22-9 显 示 了 UDP 插 口 的 三 种 不 同 的 状态 ， 以 及 函数 为 终止 各 状态 调用 的 伪 代 码 。 


| jocaltPlport | lport | foreigniPfport. | | 限制 到 一 个 对 方 : 
socket (), bind (* . lport), connect (foreignlP, fport) 
Socket (), bind {locallP lport) , connect (foreignIP, fport) 


locallP lport *ok 限制 在 本 地 接口 上 到 达 的 数据 报 : localIP 
socket(), bind (localiP lport) 





+ port 六 .二 接收 所 有 发 到 /port 的 数据 报 : 
socket (),bind(*, lport) 


图 22-9 UDP 播 口 的 本 地 和 外 部 下 地 址 和 端口 号 规范 


前 三 个 状态 叫做 已 连接 的 UDP 插口 (connected UDP socket), 后 两 个 叫做 未 连接 的 UDP 播 
口 (unconnected UDP sockeD。 两 个 没有 连接 上 的 UDP 揪 口 的 区 别 在 于 ， 第 一 个 具有 一 个 完全 
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指定 的 本 地 地 址 ， 而 第 二 个 具有 一 个 通 配 本 地 IP 地 址 。 

3. 分 用 TCP 接 收 的 IP 数 据 报 

图 22-10 显 示 了 主机 sun 上 的 三 个 Telnet 服 务 器 的 状态 。 前 两 个 插口 处 于 LISTEN 状 态 ， 等 
待 进入 的 连接 请 求 ， 加 三 个 连接 到 ]P 地 址 是 140 252 111 的 主机 上 的 端口 1500。 第 一 个 监听 插 
口 处 理 在 接口 140.252.129 上 到 达 的 连接 请 求 ， 第 二 个 监听 播 口 将 处 理 所 有 其 他 接口 (因为 它 的 
本 地 IP 地 址 是 通 配 地 址 )。 


140. 140252129 | 1.29 LISTEN 
LISTEN 
140.252.1.29 140.252.1.11 1500 ESTABLISHED 


图 22-10 本 地 端口 是 23 的 三 个 TCP 插 口 


两 个 具有 未 指定 的 外 部 IP 地 址 和 端口 号 的 监听 括 口 都 显示 了 出 来 ， 因 为 插口 API 不 允许 
TCP 服 务 器 限制 任何 一 个 值 。TCP 服 务 器 必须 accept 客 户 的 连接 ， 并 在 连接 建立 完成 之 后 
(也 就 是 说 ， 当 TCP 的 三 次 握手 结束 之 后 ) 被 告知 客户 的 耻 地 址 和 端口 号 。 只 有 到 这 个 时 候 ， 如 
果 服 务 器 不 喜欢 客户 的 卫 地 址 和 端口 号 ， 才 能 关闭 连接 。 这 并 不 是 对 TCP 要 求 的 特性 ， 这 只 
是 插口 API 通 常 的 工作 方式 。 

当 TCP 收 到 一 个 目的 端口 是 23 的 报 文 段 时 ， 它 调用 in_pcblookup， 搜 索 它 的 整个 
Internet PCB 表 ， 找 到 一 -个 匹配 。 马 上 我 们 会 研究 这 个 函数 ， 将 看 到 它 有 优先 权 ， 因 为 它 的 通 
配 匹配 (wildcard match) 数 最 少 。 为 了 确定 通 配 匹配 数 ， 我 们 只 考虑 本 地 和 外 部 的 IP 地 址 ， 不 
考虑 外 部 端 日 号 。 本 地 端口 号 必须 匹配 ， 否 则 我 们 其 至 不 考虑 PCB。 通 配 匹 配 数 可 以 是 0、 
1( 本 地 IP 地 址 或 外 部 IP 地 址 ) 或 2( 本 地 和 外 部 IP 地 址 )。 

例如 ， 假 定 到 达 报 文 段 来 自 140.252.1.11， 端 口 1500， 目 的 地 是 140.252.1.29， 端 口 23。 
图 22-11 是 图 22-10 中 三 个 插口 的 通 配 匹 配 数 。 


mun 


| 140.252.1.29 | 252.1.29 LISTEN 
23 LISTEN 2 
140.252.1.29 23 140.252.1.11 1500 ESTABLISHED 0 


图 22-11 A (140.252.1.11, 1500) $1 (140.252.1.29, 23} 的 到 达 报 文 段 


第 一 个 插口 匹配 这 四 个 值 ， 但 有 一 个 通 配 匹配 (外 部 IP 地 址 )。 第 二 个 插口 也 和 到 达 报 文 段 
匹配 ， 但 有 两 个 通 配 匹 配 ( 本 地 和 外 部 下 地 址 )。 第 三 个 插口 是 一 个 没有 通 配 匹配 的 完全 匹配 。 
Net/3 使 用 第 三 个 插口 ， 它 具有 最 小 通 配 匹 配 数 。 

继续 这 个 例子 ， 假 定 到 达 报 文 段 来 自 140.252.1.11， 端 口 1501， 目 的 地 是 140.252.1.29， 
端口 23。 图 22-12 显 示 了 通 配 匹配 数 。 


| 140. 252.1. 140.252.1.29 | LISTEN 4 | 
* LISTEN 2 
140.252.1.29 23 140.252.1.11 1500 ESTABLISHED 


图 22-12 M (140.252.1.11, 1501) $1 (140.252.1.29, 23} 的 到 达 报 文 段 
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第 一 个 插口 匹配 有 一 个 通 配 匹 配 ， 第 二 个 插口 匹配 有 两 个 通 配 匹 配 ;， 第 三 个 插曲 根本 不 
匹配 ， 因 为 外 部 端口 号 不 相等 (只 有 当 PCB 中 的 外 部 IP 地 址 不 是 通 配 地 址 时 ， 才 比较 外 部 端口 
号 )。 所 以 选择 第 一 个 插口 。 

在 这 两 个 例子 中 ， 我 们 没有 提 到 到 达 TCP 报 文 段 的 类 型 : 假定 图 22-11 中 的 报 文 段 包 含 数 
据 或 对 一 个 已 经 建立 的 连接 的 确认 ， 因 为 它 是 发 送 到 一 个 已 经 建立 的 插口 上 的 。 我 们 还 假定 ， 
图 22-12 中 的 报 文 段 是 一 个 到 达 的 连接 请 求 (一 个 SYN)， 因 为 它 是 发 送 给 一 个 正在 监听 的 插口 
的 。 但 是 in_pcblookup 的 分 用 代码 并 不 关心 这 些 。 如 果 TCP 报 文 段 对 交付 的 插口 来 说 是 错 
误 的 类 型 ， 我 们 将 在 后 面 看 到 ，TCP 会 处 理 这 种 情况 。 现 在 ， 重 要 的 是 ， 分 用 代码 只 把 IP 数 
据 报 中 的 源 和 目的 插口 对 的 值 与 PCB 中 的 值 进 行 比 较 。 

4. 分 用 UDP 接收 的 也 数 据 报 

UDP 数据 报 的 交付 比 我 们 刚才 研究 的 TCP 的 例子 要 复杂 得 多 ， 因 为 可 以 把 UDP 数据 报 发 
送 到 一 个 广播 或 多 播 地址 。 因 为 Net/3( 以 及 大 多 数 支持 多 播 的 系统 ) 允 许多 个 插口 有 相同 的 本 
地 IP 地 址 和 端口 ， 所 以 如 何 处 理 多 个 接收 方 的 情况 呢 ? Net3 的 规则 是 : 

1) 把 目的 地 是 广播 IP 地 址 或 多 播 了 地址 的 到 达 UDP 数 据 报 交付 给 所 有 匹配 的 插口 。 这 里 
没有 “最 好 的 ”匹配 的 概念 (也 就 是 具有 最 小 通 配 匹 配 数 的 匹配 )。 

2) 把 目的 地 是 单 播 IP 地 址 的 到 达 UDP 数 据 报 只 交付 给 一 个 匹配 的 插口 ， 就 是 具有 最 小 通 
配 匹 配 数 的 插口 。 如 果 有 多 个 插口 具有 相同 的 “最 小 ” 通 配 匹 配 数 ， 那 么 具体 由 哪个 插口 来 
接收 到 达 数 据 报 依赖 于 不 同 的 实现 ， 

图 22-13 显 示 了 四 个 我 们 将 在 后 面 例 子 中 使 用 的 UDP 插 口 。 要 使 四 个 UDP 插 口 具 有 相同 的 
本 地 端口 号 需要 使 用 SO_REUSEADDR 或 SO0_REUSEPORT。 前 两 个 插 日 已 经 被 连接 到 一 个 外 部 
IP 地 址 和 端口 号 ， 后 面 两 个 没有 任何 连接 。 


140.252.1.29 140.252.1.11 已 连接 ， 本 地 IP = 单 播 


140.252.13.63 140.252.13.35 已 连接 ， 本 地 了 P = 广播 
140.252.13.63 未 连接 ， 本 地 LIP = 广播 
* 未 连接 ， 本 地 IP = 通 配 地 址 


图 22-13 四 个 本 地 端口 为 577 的 UDP 插 口 


考虑 目的 地 是 140.252.13.63( 位 于 子 网 140.252.13 上 的 广播 地 址 )， 端 口 577， 来 自 
140.252.13.34， 端 口 1500。 图 22-14 显 示 它 被 交付 给 第 三 和 第 四 个 插口 。 














140.252.1.29 577 140.252.1.11 1500 不 ， 本 地 和 外 部 IP 不 匹配 
140.252.13.63 140.252.13.35 不 ， 外 部 IP 不 匹配 
140.252.13.63 交付 
* 交付 



























图 22-14 接收 从 {140.252.13.34, 1500} 到 {140.252.13.63, 577} 的 数据 报 


广播 数据 报 不 交付 给 第 一 个 插口 ， 因 为 本 地 IP 地 址 和 目的 IP 地 址 不 匹配 ， 外 部 IP 地 址 和 源 
IP 地 址 也 不 匹配 。 也 不 把 它 交付 给 第 二 个 插口 ， 因 为 外 部 下 地 址 和 源 IP 地 址 不 匹配 。 
对 于 下 一 个 例子 ， 考 虑 目的 地 是 140.252.129( 一 个 单 播 地 址 )， 端 口 5377,， 来自 140 252 1.111, 
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端口 1500。 图 22-15 显 示 了 把 该 数据 报 交 入 给 哪个 端口 。 


140.252.1.29 577 140.252.1.11 1500 交付 ，0 个 通 配 匹配 
140.252.13.63 140.252.13.35 不 ， 本 地 和 外 部 下 不 匹配 
140.252.13.63 * 不 ， 本 地 下 不 匹配 
* 不 ，2 个 通 配 匹配 






































* 


图 22-15 接收 从 {140.252.1.11, 1500) $/(140.252.1.29, 577} 的 数据 报 


该 数据 报 和 第 一 个 播 口 匹配 ， 且 没有 通 配 匹 配 ; 也 和 第 四 个 播 口 匹配 ， 但 有 两 个 通 配 匹 
配 。 所 以 ， 它 被 交付 给 第 一 个 插口 ， 最 好 的 匹配 。 


22.6 in pcblookup 函 数 


in_pcblookupň ý JL ERI: 

1) 当 TCP 或 UDP 收 到 一 个 IP 数 据 报时 ，in_pcblookup 扫 描 协 议 的 Internet PCB 表 ， 寻 找 
一 个 匹配 的 PCB， 来 接收 该 数据 报 。 这 是 运输 层 对 收 到 数据 报 的 分 用 。 

2) 当 进 程 执行 bind 系 统 调用 ， 为 某 个 插口 分 配 一 个 本 地 IP 地 址 和 本 地 端口 号 时 ， 协 议 调 
用 in_pcbbind， 验 证 请 求 的 本 地 地 址 对 没有 被 使 用 。 

3) 当 进 程 执 行 bind 系 统 调用 ， 请 求 给 它 的 插口 分 配 一 个 临时 端口 时 ， 内 核 选 了 一 个 临时 
端口 ， 并 调用 in_pcbbind 检 查 该 端口 是 否 正在 被 使 用 。 如 果 正 在 被 使 用 ， 就 试 下 一 个 端口 
号 ， 以 此 类 推 ， 直 到 找到 一 个 没有 被 使 用 的 端口 号 。 

4) 当 进 程 显 式 或 隐 式 地 执行 connect 系统 调用 时，in_pcbbind 验 证 请 求 的 插口 对 是 唯 
一 的 ( 当 在 一 个 没有 连接 上 的 插口 上 发 送 一 个 UDP 数 据 报时 ， 会 隐 式 地 调用 connect， 我 们 将 
在 第 23 章 看 到 这 种 情况 )。 

在 第 2 种 、 第 3 种 和 第 4 种 情况 下 ，in_pcbbind 调 用 in_pcblookup。 两 个 选项 使 该 函 
数 的 逻辑 显得 有 些 混乱 。 首 先 ， 进 程 可 以 指定 SO_REUSEADDR 或 SO_REUSEPORT 插 口 选项 ， 
表明 允许 复制 本 地 地 址 。 

其 次 ， 有 时 通 配 匹 配 也 是 允许 的 (例如 ， 一 个 到 达 UDP 数 据 报 可 以 和 一 个 自己 的 本 地 IP 地 
址 有 通配符 的 PCB 匹 配 ， 意 味 着 该 插口 将 接收 在 任何 本 地 接口 上 到 达 的 UDP 数据 报 )， 而 其 他 
情况 下 ， 一 个 通 配 匹配 是 禁止 的 (例如 ， 当 连接 到 一 个 外 部 IP 地 址 和 端口 号 时 )。 


在 原始 的 标准 IP 多 播 代 码 中 ， 出 现 了 这 样 的 注释 “in_pcblookup 的 远 辑 比较 
模糊 ， 也 没有 一 点 说 明 …… ”。 形 容 词 模糊 比较 保守 。 l 

公开 的 IP 多 播 码 是 BSD / 386 的 ， 是 由 Craig Leres 从 4.4BSD 派 生 而 来 的 。 他 修改 
了 该 函数 过 载 的 语义 ， 只 对 上 面 的 第 1 种 情况 使 用 in_pcblookup。 第 2 种 和 第 4 种 
情况 由 一 个 新 函数 in_pcbconf1ict 处 理 。 情 况 3 由 新 函数 in_unidqueport 处 理 。 
把 原来 的 功能 分 成 几 个 独立 的 函数 就 显得 更 清楚 了 ， 但 在 我 们 描述 的 Net/3 版 本 中 ， 
整个 逻辑 还 是 结合 在 一 个 函数 in_Pcblookup 中 。 
图 22-16 显 示 了 in_pcblookuup 函 数 。 
该 函数 从 协议 的 PCB 表 的 表 头 开始 ， 并 可 能 会 遍历 表 中 的 每 个 PCB。 变 量 matcp 记 录 了 

到 目前 为 止 最 佳 匹 配 的 指针 入 口 ，matchwi1d 记 录 在 该 匹配 中 的 通 配 匹 配 数 。 后 者 被 初始 化 


582 TCP/IP ¥® A2: 实现 


成 3， 比 可 能 遇 到 的 最 大 通 配 匹 配 数 还 大 (任何 大 于 2 的 值 都 可 以 )。 每 次 循环 时 ，wilacard 从 
0 开始 ， 计 数 每 个 PCB 的 通 配 匹 配 数 。 





1. 比较 本 地 闯 口 号 

第 一 个 比较 的 是 本 地 端口 号 。 如 果 PCB 的 本 地 端口 和 1port 参 数 不 匹配 ， 则 忽略 该 PCB 。 
405 struct inpcb * in. pcb.c 
406 in pcblookup(head, faddr, fport arg, laddr, lport arg, flags) 
407 struct inpcb *head; 
408 struct in_addr faddr, ladár; 
409 u int fport arg, lport arg; 
410 int flags; 
411 ( 
412 struct inpcb *inp, *match = 0; 
413 int matchwild = 3, wildcard; 
414 u short fport = fport arg, lport = lport arg; 
415 for (inp = head-»inp next; inp !- head; inp = inp-»inp next) ( 
416 if (inp-»inp lport !- lport) 
417 continue; /* ignore if local ports are unequal */ 
418 wildcard - 0; 
419 if (inp-»inp laddr.s addr !- INADDR ANY) ( 
420 if (laddr.s, addr == INADDR, ANY) 
421 wildcard«*; 
422 else if (inp-»inp laddr.s addr !- laddr.s, addr) 
423 continue; 
424 ) eise ( 
425 if (laddr.s, addr !- INADDR ANY) 
426 wildcard++; 
427 } 
428 if (inp-»inp faddr.s addr != INADDR_ANY}) ( 
429 if (faddr.s, addr == INADDR ANY) 
430 wildcard«*; 
431 else if (inp--inp faddr.s addr !- faddr.s addr || 
432 inp-»inp fport !- fport) 
433 continue; 
434 ) else ( 
435 if (faddr.s, addr !- INADDR ANY) 
436 wildcard++; 
437 } 
438 if (wildcard && (flags & INPLOOKUP.WILDCARD) == 0) 
439 continue; /* wildcard match not allowed */ 
440 if (wildcard < matchwild) ( 
441 match - inp; 
442 matchwild - wildcard; 
443 if (matchwild == 0) 
444 break; /* exact match, all done */ 
445 ) 
446 ) 
447 return (match); 
448 ) . 

in pcb.c 


图 22-16 in_pcblookuup 函 数 : 搜索 所 有 PCB 寻 找 匹 配 
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2. 比较 本 地 地 址 
419-427 in_pcblookup 比 较 PCB 内 的 本 地 地 址 和 laddr 参 数 。 如 果 有 一 个 是 通 配 地 址 ， 
另 一 个 不 是 ， 则 wildcard 计 数 器 加 1。 如 果 都 不 是 通 配 地 址 ， 则 它们 必须 一 样 ， 否 则 忽略 这 
个 PCB 。 如 果 都 是 通 配 地 址 ， 则 什么 也 不 改变 : 它们 不 可 比 ， 也 不 增加 wildacard 计 数 器 。 
图 22-17 对 四 种 不 同 的 情况 做 了 小 结 。 


wildcard«« 


比较 下地 址 ， 如 果 不 相等 ， 则 略 过 PCB 
不 能 比较 


wildcards« 


图 22-17 in_pcblookup 做 的 四 种 IP 地 址 比较 





3. 比较 外 部 地 址 和 外 部 端口 号 
428 -437 这 几 行 完成 与 我 们 刚才 讲 的 同样 的 检查 ， 但 是 用 外 部 地 址 而 不 是 本 地 地 址 。 而且 ， 
如 果 两 个 外 部 地 址 都 不 是 通 配 地 址 ， 则 不 仅 两 个 IP 地 址 必须 相等 ， 而 且 两 个 外 部 端口 也 必须 
相等 。 图 22-18 对 外 部 IP 地 址 的 比较 作 了 总 结 


wildcard++ 


比较 IP 地 址 和 端口 ， 如 果 不 相等 ， 则 略 过 PCB 
不 能 比较 


wildcards-« 





图 22-18 in_pcblookup 做 的 四 种 外 部 IP 地 址 比较 


可 以 对 图 22-18 中 的 第 二 行进 行 另外 的 外 部 端口 号 比较 ， 因 为 一 个 PCB 不 可 能 具有 非 通 配 
外 部 地 址 ， 且 外 部 端口 号 为 0。 这 个 限制 是 由 connect 加 上 的 ， 我 们 马上 就 会 看 到 ， 该 函数 
要 求 一 个 非 通 配 外 部 IP 地 址 和 一 个 非 零 外 部 端口 。 但 是 ， 也 可 能 ， 并 且 通 常 都 是 具有 一 个 通 
配 本 地 地 址 和 一 个 非 零 本 地 端口 。 我 们 在 图 22-10 和 图 22-13 看 到 过 这 种 情况 。 

4. 检查 是 否 允 许 通 配 匹 配 
438-439 参数 flags 可 以 被 设 成 INPLOOKUP_WILDCRARD， 意 味 着 允许 匹配 中 包含 通 配 匹 
配 。 如 果 在 匹配 中 有 通 配 匹配 (wildcardq 非 零 )， 并 且 调 用 方 没有 指定 这 个 标志 位 ， 则 忽略 这 
个 PCB。 当 TCP 和 UDP 调 用 这 个 函数 分 用 一 个 到 达 数 据 报时 ， 总 是 把 INPLOOKUP_WILDCARD 
置 位 ， 因 为 允许 通 配 匹 配 ( 记 住 我 们 用 图 22-10 和 图 22-13 所 作 的 例子 )。 但 是 ， 当 这 个 函数 作为 
connect 系 统 调用 的 一 部 分 而 调用 时 ， 为 了 验证 一 个 插口 对 没有 被 使 用 ， 把 flags 参 数 设 成 0。 

5. 记录 最 佳 匹 配 ， 如 果 找 到 确切 匹配 ， 则 返回 
440-447 ”这 些 语 句 记录 到 目前 为 止 找 到 的 最 佳 匹配 。 重 复 一 下 ， 最 佳 匹 配 是 具有 最 小 通 配 
匹配 数 的 匹配 。 如 果 一 个 匹配 有 一 个 或 两 个 通 配 匹 配 ， 则 记录 该 匹配 ， 循 环 继续 。 但 是 ， 如 
果 找 到 一 个 确切 的 匹配 (wildcard 是 0)， 则 循环 终止 ， 返 回 一 个 指向 该 确切 匹配 PCB 的 指针 。 

例子 一 一 分 用 收 到 的 TCP 报 文 段 

图 22-19 取 自我 们 在 图 22-11 中 的 TCP 的 例子 。 假 定 ijn_pcblookup 正 在 分 用 一 个 从 
140.252.1.11 即 端口 1500 到 140.252.1.29 即 端口 23 的 数据 报 。 还 假定 PCB 的 顺序 是 图 中 行 的 顺序 。 
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laddr 是 目的 IP 地 址 ，lport 是 目的 TCP 端 口 ，faddr 是 源 下 地 址 ，fport 是 源 TCP 端 口 。 


PCB Íri 


D e e el a 


140.252.1.29 
140.252.1.29 140.252.1.11 
图 22-19 1addrz140.252.1.29, iport-23, faddr -2140.252.1.11, fport- 1500 


当 把 第 一 行 和 到 达 报 文 段 比较 时 ，wi1qcard 是 1( 外 部 IP 地 址 )，f 1ags 被 设 成 
INPLOOKUP_WILDCARD， 所 以 把 match 设 成 指向 该 PCB，matchwi1d 设 为 1。 因 为 还 没有 
找到 确切 的 匹配 ， 所 以 循环 继续 。 下 一 次 循环 中 ，wi1ldcard 是 2( 本 地 和 外 部 IP 地 址 )， 因 为 
比 matchwi1d 大 ， 所 以 不 记录 该 入 口 ， 循 环 继续 。 再 次 循环 时 ，wilqdcard 是 0， 比 
matchwild(1) 小 ， 所 以 把 这 个 入 口 记录 在 match 中 。 因 为 已 经 找到 了 一 个 确切 的 地 址 ， 所 
以 终止 循环 ， 把 指向 该 PCB 的 指针 返回 给 调用 方 。 

如 果 TCP 和 UDP 只 用 in_pcblookup 来 分 用 到 达 数 据 报 ， 就 可 以 对 它 进行 简化 。 首 先 ， 
没有 必要 检查 faddr 或 1addr 是 否 是 通 配 地 址 ， 因 为 它们 是 收 到 数据 报 的 源 和 目的 IP 地 址 。 
参数 flags 以 及 与 相应 的 检测 也 可 以 不 要 ， 因 为 允许 通 配 匹 配 。 

这 一 节 讨 论 了 in_pcblookup 函 数 的 机 制 。 我 们 在 讨论 in_pcbbind 和 
in_pcbconnect 如 何 调用 这 个 函数 后 ， 将 继续 回来 讨论 它 的 意义 。 


22.7 in_pcbbind 项 数 


wildcard 





下 一 个 函数 in_pcbbina， 把 一 个 本 地 地 址 和 端口 号 绑 定 到 一 个 播 口 上 。 从 五 个 函数 中 
WAE: 

1) bind 为 某 个 TCP 插 口 调用 (通常 绑 定 到 服务 器 的 一 个 知名 端口 上 ); 

2) bind 为 某 个 UDP 插口 调用 ( 绑 定 到 服务 器 的 一 个 知名 端口 上 ， 或 者 绑 定 到 客户 播 口 的 
一 个 临时 端口 上 ); 

3) connect 为 某 个 TCP 插 口 调用 ， 如 果 该 插口 还 没有 绑 定 到 一 个 非 零 端 口上 (对 TCP 客 户 
来 说 ， 这 是 一 种 典型 情况 ); 

4) 1isten 为 某 个 TCP 插口 调用 ， 如 果 该 插口 还 没有 绑 定 到 一 个 非 零 端口 (这 很 少见 ， 因 
为 是 TCP 服务 器 调用 1isten，TCP 服 务 器 通常 绑 定 到 一 个 知名 端口 上 ， 而 不 是 临时 端口 ); 

5) 从 in_pcbconnect(22.8 节 ) 调 用 ， 如 果 本 地 IP 地 址 和 本 地 端口 号 被 置 位 ( 当 为 一 个 
UDP 插 口 调用 connect， 或 为 一 个 未 连接 UDP 插 口 调用 sendto 了 时 ， 这 种 情况 比较 典型 )。 

在 第 3 种 、 第 4 种 和 第 5 种 情形 下 ， 把 一 个 临时 端口 号 绑 定 到 该 插口 上 ， 不 改变 本 地 IP 地 址 
(在 它 已 经 被 置 位 的 情况 下 )。 

称 情形 1 和 情形 2 为 显 式 绑 定 (explicit bind)， 情 形 3、4 和 5 为 隐 式 绑 定 (implicit bind)。 我 们 
也 注意 到 ， 尽 管 在 情形 2 时 ， 服 务 器 绑 定 到 一 个 知名 端口 是 很 正常 的 ， 但 那些 用 远程 过 程 调用 
(RPC) 启 动 的 服务 器 也 常常 绑 定 到 临时 端口 上 ， 然 后 用 其 他 程序 注册 它们 的 临时 端口 ， 访 程序 
维护 在 该 服务 器 的 RPC 程 序号 与 其 临时 端口 之 间 的 映射 (例如 ， 卷 1 的 29.4 节 描述 的 Sun 端 口 映 
射 器 )。 
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我 们 分 三 部 分 显示 in_pcbbind 函 数 。 图 22-20 是 第 一 部 分 。 


52 int in pcb.c 
53 in pcbbind(inp, nam) 
54 struct inpcb *inp; 
55 struct mbuf *nam; 
56 ( 
57 struct socket *so - inp-»inp socket; 
58 struct inpcb *head = inp-»inp head; 
59 struct sockaddr, in *sin; 
60 struct proc *p - curproc; /* XXX */ 
61 u short lport - 0; 
62 int wild = 0; reuseport = (so-»so options & SO REUSEPORT); 
63 int error; . 
64 if (in ifaddr == 0) 
65 return (EADDRNOTAVAIL); 
66 if (inp-»inp.lport |I inp-»inp laddr.s,addr !- INADDR ANY) 
67 return (EINVAL); 
68 if ((so-»so options & (SO,REUSEADDR | SO REUSEPORT)) == 0 && 
69 ((so-»so. proto-»pr flags & PR,CONNREQUIRED) == 0 |I 
70 (so-»so options & SO ACCEPTCONN) == 0)) 
71 wild = INPLOOKUP WILDCARD; 
in pcb.c 


图 22-20 in pcbbindE Xx: 绑 定 本 地 地 址 和 端口 号 


64-67 前 两 个 测试 验证 至 少 有 一 个 接口 已 经 被 分 配 了 一 个 卫 地 址 ， 且 该 播 口 还 没有 绑 定 。 
不 能 两 次 绑 定 一 个 捅 口 。 

68-71 这 个 if 语 句 有 点 令 人 疑问 。 总 的 结果 是 如 果 SO_REUSEADDR 和 SO_REUSEPORT 都 没 
有 置 位 ， 就 把 wild 设 置 成 TINPLOOKUP_WILDCARD。 

对 UDP 来 说 ， 第 二 个 测试 为 真 ， 因 为 PR_CONNREQUIRED 对 无 连接 插口 为 假 ， 对 面向 连 
接 的 插口 为 真 。 

第 三 个 测试 就 是 疑问 所 在 [Torek 1992]。 插 口 标 志 SO_ACCEPTCONN 只 被 系统 调用 
1isten 置 位 (15.9 节 )， 该 值 只 对 面向 连接 的 服务 器 有 效 。 在 正常 情况 下 ， 一 个 TCP 服 务 器 调 
用 socket、bind， 然 后 调用 Listen。 因 而 ， 当 in_pcbbind 被 bind 调 用 时 ， 就 清除 了 这 
个 插口 标志 位 。 即 使 进程 调用 完 socket 后 就 调用 1isten， 而 不 调用 bind，TCP 的 
pRU_LISTEN 请 求 还 是 调用 in_pcbbind， 在 插口 层 设 置 S0_ACCEPTCONN 标 志 位 之 前 ， 给 
插口 分 配 一 个 临时 端口 。 这 意味 着 if 语句 中 的 第 三 个 测试 ， 测 试 SO_aAaCCEPTCONN 是 否 没有 
置 位 ， 总 是 为 真 。 因 此 if 语 句 等 价 于 

if ((so-»so options & (SO REUSEADDR!SO REUSEPORT)) -- 0 && 


((so-»so, proto-»pr flags & PR CONNREQUIRED):--0!11) 
wild - INPLOOKUP WILDCARD; 


因为 任何 与 1 作 逻辑 或 运算 的 结果 都 为 真 ， 所 以 这 等 价 于 
if ((so-»so options & (SO_REUSEADDR1SO_REUSEPORT) ) == 0 ) 
wild = INPLOOKUP. WILDCARD; 


这 样 简单 且 容 易 理解 : 如 果 任 何 一 个 REUSE 播 口 选项 被 置 位 ，wi1d 就 是 0。 如 果 没 有 
REUSE 选 项 被 置 位 ， 则 把 wild 设 成 TNPLOOKUP_WILDCARD。 换 言 之 ， 当 函 数 在 后 面 调用 
in_pcblookup 时 ， 只 有 在 没有 REUSE 选 项 处 于 开 状 态 时 ， 才 允许 通 配 匹配 。 
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in_pcbbingd 的 下 一 部 分 ， 显 示 在 图 22-22 中 ， 函 数 处 理 可 选 nam 参 数 。 
72-75 只 有 当 进 程 显 式 调用 bind 时 ，nam 参 数 才 是 一 个 非 零 指针 。 对 一 个 隐 式 的 绑 定 
(connect、1isten 或 in_pcbconnect 的 副作用 ， 本 节 开 始 的 情形 3、4 和 5)，nam 是 一 个 
空 指针 。 当 指定 了 该 参数 时 ， 它 是 一 个 含有 sockaddr_in 结 构 的 mbuf。 图 22-21 显 示 了 非 空 
参数 nam 的 四 种 情形 。 


localiP 临时 端口 LocalLiP 必 须 是 本 地 接口 


localiP lport 交付 给 in_pcblookup 
临时 端口 
lport 交付 给 in_pcblookup 








图 22-21 in_pcbbind 的 nam 参 数 的 四 种 情形 


76-83 对 正确 的 地 址 族 的 测试 被 注释 掉 了 ， 但 在 函数 in_pcbconnect( 图 22-25) 中 执行 了 
等 价 的 测试 。 我 们 希望 两 者 或 者 都 有 或 者 都 没有 。 
85-94 ”Net/3 视 试 被 绑 定 的 PP 地 址 是 否 是 一 个 多 播 组 。 如 果 是 ， 则 SO_REUSEADDR 选 项 被 认 
为 与 SO_REUSEPORT 等 价 。 
95-99 否则 ， 如 果 调 用 方 绑 定 的 本 地 地 址 不 是 通 配 地 址 ， 则 ifa_ifwithadqr 验 证 该 地 址 
与 一 个 本 地 接口 对 应 。 
注释 “yech?” 可 能 是 因为 播 口 地 址 结构 中 的 端口 号 必须 是 0， 因 为 fa_ 
ifwithaddr 对 整个 结构 作 二 进 制 比较 ， 而 不 仅仅 比较 IP 地 址 。 
这 是 进程 在 调用 系统 调用 之 前 必须 把 插口 地 址 结构 全 部 置 零 的 几 种 情况 之 一 。 

如 果 调 用 bind， 并 且 插 口 地 址 结构 (sin_zero[8]) 的 最 后 8 个 字 节 非 索 ， 则 

ifa_ifwithaddr 将 找 不 到 请 求 的 接口 ，in_pcbbind 会 返回 一 个 错误 。 
100-105  ” 当 调 用 方 绑 定 了 一 个 非 零 端口 时 ， 也 就 是 说 ， 进 程 要 绑 定 一 个 特殊 端口 号 (图 22- 
21 中 的 第 2 种 和 第 4 种 情形 )， 就 执行 下 一 个 if 语 句 。 如 果 请 求 的 端口 小 于 
1024(IPPORT_RESERVED)， 则 进程 必须 具有 超级 用 户 的 优先 权限 。 这 不 是 Internet 协 议 的 一 
部 分 ， 而 是 伯克利 的 习惯 。 使 用 小 于 1024 的 端口 号 ， 我 们 称 之 为 保留 端口 (reserved port), 
如 ，rcmqd 函 数 [Stevens 1990] 使 用 的 端口 ，rlogin 和 rsh 客 户 程序 又 调用 该 函数 ， 作 为 服务 
器 对 它们 身份 认证 的 一 部 分 。 
106-109 然后 调用 函数 ijn_pcblookup( 图 22-16)， 检 测 是 否 已 经 存在 一 个 具有 相同 本 地 IP 
地 址 和 本 地 端口 号 的 PCB。 第 二 个 参数 是 通 配 IP 地 址 (外 部 IP 地 址 )， 第 三 个 参数 是 一 个 为 0 的 
端口 号 (外 部 端口 号 )。 第 二 个 参数 的 通 配 值 导致 in_pcblookup 忽 上 略 该 PCB 的 外 部 IP 地 址 和 
外 部 端口 只 把 本 地 IP 地 址 和 本 地 端口 号 分 别 和 sin->sin_addr 及 lport 进 行 比较 。 我 
们 前 面 提 到 ， 只 有 当 所 有 REUSE 揪 口 选 项 都 没有 被 设置 时 ， 才 把 wi1la 设 成 
INPLOOKUP WILDCARD, 
111 ”调用 方 的 本 地 IP 地 址 值 存放 在 PCB 中 。 如 果 调 用 方 指定 ， 它 可 以 是 通 配 地 址 。 在 这 种 情 
况 下 ， 由 内 核 选择 本 地 IP 地 址 ， 但 要 等 到 晚 些 时 候 插 口 连 接 上 时 。 这 就 是 为 什么 说 本 地 IP 地 
址 是 根据 外 部 IP 地 址 ， 由 IP 路 由 选择 决定 。 
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72 if (nam) ( in-pebc 
73 Sin - mtod(nam, struct sockaddr in *); 

74 if (nam-»m len !- sizeof(*sin)) 

75 return (EINVAL); 

76 #ifdef notdef 

77 /* - 

78 * We should check the family, but old programs 

79 * incorrectly fail to initialize it. 

80 */ 

81 if (sin-»sin family !- AF INET) 

82 return (EAFNOSUPFPORT); 

83 fendif 

84 lport = sin-»sin port; /* might be 0 */ 

85 if (IN MULTICAST(ntohl(sin-»sin addr.s addr))) ( 

86 /* 

87 * Treat SO REUSEADDR as SO REUSEPORT for multicast; 
88 * allow complete duplication of binding if 

89 * SO REUSEPORT is set, or if SO REUSEADDR is set 

90 * and a multicast address is bound on both 

91 * new and duplicated sockets. 

92 +y 

93 if (so->so_options & SO REUSEADDR) 

94 reuseport = SO_REUSEADDR | SO REUSEPORT; 

95 ) else if (sin-»sin addr.s addr !- INADDR ANY) { 

96 sin-»sin port = 0; /* yech... */ 

97 if (ifa ifwithaddr((struct sockaddr *) sin) == 0) 

98 return (EADDRNOTAVAIL); 

99 } 
100 if (lport) ( 
101 struct inpcb *t; 
102 /* GROSS */ 
103 if (ntohs(lport) « IPPORT RESERVED && 
104 (error = suser(p-»p.ucred, &p-»p acflag))) 
105 return (error); 
106 t = in pcblookup(head, zeroin addr, O0, 

107 Sin-»sin addr, lport, wild); 
108 if (t && (reuseport & t-»inp socket-»so options) == 0) 
109 return (EADDRINUSE); 
110 ) 
111 inp-»inp. laddr = sin-»sin, addr; /* might be wildcard */ 
112 } » 
in pcb.c 





图 22-22 in pcbbindjp EE: 处 理 可 选 的 nam 参 数 


当 调用 方 显 式 绑 定 端口 0， 或 ham 参数 是 一 个 空 指针 ( 隐 式 绑 定 ) 时 ，in_pcbbind 的 最 后 
一 部 分 处 理 分 配 一 个 临时 端口 。 
113-122 ”这 个 协议 (TCP 或 UDP) 使 用 的 下 一 个 临时 端口 号 被 维护 在 该 协议 的 PCB 表 的 head: 
tcb 或 udb。 除 了 协议 的 head PCB 中 的 jnp_next 和 inp_back 指 针 外 ，inpcb 结 构 另 一 个 
唯一 被 使 用 的 元 素 是 本 地 端口 号 。 令 人 迷惑 的 是 ， 这 个 本 地 端口 在 head PCB 中 是 主机 字 节 序 ， 
而 在 表 中 其 他 PCB 上， 却 是 网 络 字 节 序 ! 使 用 从 1024 开 始 的 临时 端口 号 
(IPPORT_RESERVED)， 每 次 加 1， 直 到 5000(IPPORT_USERRESERVED)， 然 后 又 从 1024 重 
新 开始 循环 。 该 循环 一 直 执行 到 in_pcbbind 找 不 到 匹配 为 止 。 

1. SO_REUSERADDR 举 例 

让 我 们 通过 一 些 普通 的 例子 ， 来 了 解 一 下 in_pcbbind 与 in_pcblookup 及 两 个 REUSE 
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播 口 选项 之 间 的 交互 。 
- E E pcb.c 
113 if (lport == 0) 
114 do { 
115 if (head->inp_lport++ < IPPORT RESERVED || 
116 head--inp lport > IPPORT USERRESERVED) 
117 head-»inp lport = IPPORT RESERVED; 
118 lport - htons(head-»inp lport); 
119 ) while (in pcblookup (head, 
120 zeroin addr, 0, inp-»inp laddr, lport, wild)); 
121 inp-»inp lport = lport; ] 
122 return (0); 
123 } 


in pcb.c 
图 22-23 in pcbbindeRZE: 选择 一 个 临时 端口 


1) TCP 或 UDP 通 常 以 调用 socket 和 bind 开 始 。 假 定 一 个 调用 bind 的 TCP 服 务 器 ， 指 定 
了 通 配 IP 地 址 和 它 的 非 零 知 名 端口 23(Telnet 服 务 器 )。 还 假定 该 服务 器 还 没有 运行 ， 进 
程 没 有 设置 8S0_REUSEADDR 插 口 选 项 。 
in_pcbbind 把 INPLOOKUP_WILDCARD 作 为 最 后 一 个 参数 ， 调 用 in_pcblookup。 
in_pcblookup 中 的 循环 没有 找到 匹配 的 PCB， 就 假定 没有 其 他 进程 使 用 服务 器 的 知 
名 TCP 端 口 ， 返 回 一 个 空 指针 。 一 切 正常 ，in_pcbpbind， 返 回 0。 

2) 假定 和 上 面相 同 的 情况 ， 但 当 再 次 试图 启动 服务 器 时 ， 该 服务 器 已 经 开始 运行 。 

当 调用 in_pcbloeokup 时 ， 它 发 现 了 本 地 播 口 为 {*, 23} 的 PCB 。 因 为 wildacard 计 数 
器 是 0， 所 以 in_pcblookup 返 回 指向 这 个 入 口 的 指针 。 因 为 reuseport 是 0， 所 以 
in pcbbindjkR|BEADDRINUSE, 

3) 假定 与 上 面相 同 的 情况 ， 但 当 第 二 次 试图 启动 服务 器 时 ， 指 定 了 SO_REUSEADDR 插 口 
选项 。 
因为 指定 了 这 个 插口 选项 ， 所 以 in_pcbbind 在 调用 in_pcblookup 时 ， 最 后 一 个 参 
数 为 0。 但 本 地 插口 为 {*, 23} 的 PCB 仍 然 匹 配 ， 因 为 jn_pcblookup 无 法 比较 两 个 通 
配 地 址 (图 22-17)， 所 以 wildcard 为 0。in_pcbbind 又 返回 EADDRINUSE， 避 免 启 
动 两 个 具有 相同 本 地 插口 的 服务 器 例 程 ， 不 管 是 否 指 定 了 SO_REUSEADDR。 

4) 假定 有 一 个 Telnet 服 务 器 已 经 以 本 地 插口 {*, 23} 开 始 运 行 ， 而 我 们 试图 以 另 一 个 本 地 
插口 {140.252.13.35，23} 启 动 另 一 个 服务 器 。 
假定 没有 指定 SO_REUSEADDR， 调 用 in_pcblookup 时 ， 最 后 一 个 参数 为 
INPLOOKUP_WILDCARD。 当 它 与 含有 *.23 的 PCB 比 较 时 ，wi1lqcard 计 数 器 被 设 为 1。 
因为 允许 通 配 匹 配 ， 所 以 在 扫描 完 所 有 TCP PCB 后 ， 就 把 这 个 匹配 作为 最 佳 匹配 。 
in_pcbbindGd 返 回 EADDRINUSE。 

5) 这 个 例子 与 上 一 个 相同 ， 但 为 第 二 个 试图 绑 定 本 地 插口 {140.252.13.35, 23} 的 服务 器 指 
定 了 So_REUSERADDR 揪 口 选 项 。 
现在 ，in_pcblookup 的 最 后 一 个 参数 是 0， 因 为 指定 了 插口 选项 。 当 与 本 地 插口 为 
{*, 23} 的 PCB 比 较 时 ，wildcard 计 数 器 为 1， 但 因为 最 后 的 EL1ags 参 数 是 0， 所 以 跳 
过 这 个 入 口 ， 不 把 它 记 作 匹配 。 在 比较 完 所 有 TCP PCB 后 ， 函 数 返回 一 个 空 指 针 ， 
in_pcbbind 返 回 0。 
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6) 假定 当 我 们 试图 以 本 地 插口 {*, 23} 启 动 第 二 个 服务 器 时 ， 第 一 个 Telnet 服 务 器 以 本 地 插口 
(140.252.13.35, 23} 启 动 。 与 前 面 的 例子 一 样 ， 但 这 一 次 我 们 以 相反 的 顺序 启动 服务 器 。 
第 一 个 服务 器 的 启动 没有 问题 ， 假 定 没有 其 他 插口 比 定 到 端口 23。 当 我 们 启动 第 二 
服务 器 时 ，in_pcblookup 的 最 后 一 个 参数 是 INPLOOKUP_WILDCARD， 假 定 没 有 指 
定 SO_REUSEADDR 插 口 选项 。 当 和 具有 本 地 插口 {140.252.13.35, 23} 的 PCB 比 较 时 ， 
wildcard 被 设 成 1， 记 录 这 个 人 人口。 在 比较 完 所 有 TCP PCB 后 ， 返 回 指向 这 个 人 口 的 
指针 。 导 致 in_pcbbind 返 回 EADDRINUSE。 

7) 如 果 我 们 启动 同一 个 服务 器 的 两 个 例 程 ， 并 且 都 是 非 通 配 本 地 IP 地 址 ， 会 发 生 什 么 情 

况 ? 假 定 我 们 以 本 地 插口 {140.252.13.35, 23 } 启动 第 一 个 Telnet 服 务 器 ， 然 后 试图 用 本 
地 插口 {127.0.0.1, 23) 启动 第 二 个 服务 器 ， 且 不 指定 SO_REUSERADDR。 

当 第 二 个 服务 器 调用 in_pcbbind 时 ， 它 调用 in_pcblookup， 最 后 一 个 参数 是 
INPLOOKUP_WILDCARD。 当 比较 具有 本 地 插口 {140.252.13.35, 23} 的 PCB 时 ， 因 为 本 地 
IP 地 址 不 相等 ， 所 以 跳 过 它 。in_pcblookup 返 回 一 个 空 指针 ，in_pcbbind 返 回 0。 
从 这 个 例子 中 我 们 看 到 ，SO_REUSEADDR 插 口 选 项 对 非 通 配 IP 地 址 没有 影响 。 事实 上 ， 
只 有 当 wildcard 大 于 0 时 ， 也 就 是 说 ， 当 PCB 和 人 入口 具有 一 个 通 配 下 地 址 ， 或 者 绑 定 的 卫 
地 址 是 一 个 通 配 地 址 时 ， 才 检查 in_Pcblookup 中 的 INPLOOKUP_WILDCRARD 标 志 位 

8) 作为 最 后 一 个 例子 ， 假 定 我 们 试图 启动 同一 服务 器 的 两 个 例 程 ， 具 有 相同 的 非 通 配 本 
地 IP 地 址 127.0.0.1。 
启动 第 二 个 服务 器 时 ，in_pcbliookup 总 是 返回 具有 相间 本 地 插口 的 匹配 PCB。 不 管 是 否 
指定 SoO_REUSEADDR 揪 口 选 项 ， 都 发 生 这 种 情况 ， 因 为 对 这 种 比较 ，wildcard 计 数 器 总 
是 0。 因 为 in_pcblookup 返 回 一 个 非 空 指 针 ， 所 以 in_pcbbinqd 返 回 EADDRINUSE。 

从 这 些 例 子 中 ， 我 们 可 以 指出 本 地 耳 地 址 和 So_REUSERADDR 插 口 选 项 的 绑 定 规则 。 这 些 
规则 如 图 22-24 所 示 。 假 定 localIP1 和 localP2 是 在 本 地 主机 上 有 效 的 两 个 不 同 的 单 播 或 广播 IP 
地 址 ，iocalmcastP 是 一 个 多 播 组 。 我 们 还 假定 进程 要 绑 定 到 一 个 已 经 绑 定 到 某 个 已 存在 PCB 
的 非 零 端口 号 。 

我 们 需要 区 分 单 播 或 多 播 地 址 和 一 个 多 播 地 址 ， 因 为 我 们 看 到 ，in_pcbbind 认 为 对 多 
播 地 址 ，SO_REUSEADDR 与 SO_REUSEPORT 是 一 样 。 








存在 PCB | RAHE 










. locallP1 | eis | 
locall P2 
* 


LocallPl 

localIPl 

locallP1 
* 


错误 | 每 个 IP 地 址 和 端口 一 个 服务 器 
每 个 本 地 接口 一 个 服务 器 

EM 一 个 接口 一 个 服务 器 ， 其 他 接口 一 个 服务 器 
pA HUN det 其他 接站 一个 服务 器 




















locallPl 
* 


* 


locali Pl 








locali Pl 





图 22-24 ”SO_REUSEADDR 插 口 选 项 对 绑 定 本 地 IP 地 址 的 影响 


2. S0, REUSEPORT4S ur 3t 7f 
NeVy3 中 对 SO_REUSEPORT 的 处 理 改变 了 in_pcbbind 的 逻辑 , 只 要 指定 了 SO_REUSEPORT， 
就 允许 复制 本 地 插口 。 换 言 之 ， 所 有 服务 器 都 必须 同意 共享 同一 本 地 端口 。 


22.8 in pcbconnectifZ 
函数 in_pcbconnect 为 插口 指定 IP 地 址 和 外 部 端口 号 。 有 四 个 函数 调用 它 : 
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1) connect 为 某 个 TCP 揪 口 ( 某 个 TCP 客 户 的 请 求 ) 调 用 ; 

2) connect 为 某 个 UDP 插口 (对 UDP 客户 是 可 选 的 ，UDP 服 务 器 很 少见 ) 调 用 ; 

3) 当 在 一 个 没有 连接 上 的 UDP 插 口 (普通 ) 上 输出 数据 报时 从 sendto 调 用 ; 

4) 当 一 个 连接 请 求 (一 个 SYN 报 文 段 ) 到 达 一 个 处 于 LISTEN 状 态 ( 对 TCP 服 务 器 是 标准 的 ) 
的 TCP 插 口上 时 ，tcp_input 调 用 。 

在 以 上 四 种 情况 下 ， 当 调用 in_pcbconnect 了 时， 通常 ， 但 不 要 求 ， 不 指定 本 地 IP 地 址 
和 本 地 端口 。 因 此 ， 在 没有 指定 的 情形 下 ， 由 in_pcbconnect 的 一 个 函数 给 它们 赋 一 个 本 
地 的 值 。 

我 们 将 分 四 个 部 分 讨论 in_pcbconnect 函 数 。 图 22-25 显 示 了 第 一 部 分 。 





130 int in pcb.c 
131 in pcbconnect(inp, nam) 
132 struct inpcb *inp; 
133 struct mbuf *nam; 
134 ( 
135 struct in ifaddr *ia; 
136 struct sockaddr in *ifadár; 
137 struct sockaddr in *sin - mtod(nam, struct sockaddr in *); 
138 if (nam-»m len != sizeof(*sin)) 
139 return (EINVAL); 
140 if (sin-»sin family !- AF, INET) 
141 return (EAFNOSUPPORT); 
142 if (sin-»sin, port == O0) 
143 return (EADDRNOTAVAIL); 
144 if (in ifaddr) ( 
145 /* 
146 * If the destination address is INADDR ANY, 
147 * use the primary local address. 
148 * If the supplied address is INADDR, BROADCAST, 
149 * and the primary interface supports broadcast, 
150 * choose the broadcast address for that interface. 
151 */ 
152 &define satosin(sa) ((struct sockaddr in *)(sa)) 
153 fdefine sintosa(sin) ((struct sockaddr *)(sin)) 
154 #define ifatoia(ifa) ((struct in ifaddr *)(ifa)) 
155 if (sin-»sin addr.s addr == INADDR, ANY) 
156 Sin-»sin, addr = IA SIN(in ifaddr)-»sin, addr; 
157 else if (sin-»sin addr.s addr -- (u long) INADDR, BROADCAST && 
158 (in ifaddr-»ia ifp--if flags & IFF BROADCAST)) 
159 sin-»sin, addr = satosin(&in ifaddr-»ia, broadaddr)-»sin, addr; 
160 ) : . . 
in pcb.c 
图 22-25 in. pebconnect ril 验证 参数 ， 检 查 外 部 IP 地 址 
1. 确认 参数 1 


130-143 nam 参 数 指向 一 个 包含 sockadqr_in 结 构 以 及 外 部 下 地 址 和 端 只 号 的 mbuf。 这 
些 行 确认 参数 并 验证 调用 方 不 打算 连接 到 端口 号 为 0 的 端口 上 。 

2. 特别 处 理 到 0.0.0.0 和 255.255.255.255 的 连接 
134-160 对 全 局 变量 in_ifaddr 的 检查 证 实 已 配置 了 一 个 IP 接 口 。 如 果 外 部 地 址 是 
0.0.0.0(INADDR_ANY)， 则 用 最 初 的 IP 接 日 的 下 地 址 代替 0.0.0.0。 这 就 是 说 ， 调 用 进程 是 连接 到 
这 个 主机 上 的 一 个 对 等 实体 的 。 如 果 外 部 IP 地 址 是 255.255.255.255 (INADDR. BROADCAST), 
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而 且 原 来 的 接口 支持 广播 ， 则 用 原来 接口 的 广播 地 址 代 赫 255.255.255.255。 这 样 ，UDP 应 用 
程序 无 需 计算 它 的 IP 地 址 ， 就 可 以 在 原来 的 接口 上 广播 一 一 它 可 以 简单 地 把 数据 报 发 送 给 
255.255.255.255， 由 内 核 把 这 个 地 址 转换 成 该 接口 合适 的 IP 地 址 。 

下 一 部 分 代码 ， 如 图 22-26 所 示 ， 处 理 没 有 指定 本 地 地 址 的 情况 。 对 TCP 和 UDP 客户 程序 
来 说 ， 本 节 开 始 的 表 中 的 情形 1、2 和 3 是 非常 普遍 的 。 


161 if (inp-»inp laddr.s addr == INADDR ANY) ( in. pcb.c 

162 struct route *ro; 

163 ia = (struct in ifaddr *) 0; 

164 /* 

165 * If route is known or can be allocated now, 

166 * our src addr is taken from the i/f, else punt. 

167 */ 

168 ro - &inp-»inp route; 

169 if (ro-»ro rt && 

170 (satosin(&ro-»ro dst)-»sin addr.s addr !- 

171 sin->sin addr.s addr || 

172 inp-»inp socket-»so options & SO DONTROUTE)) { 

173 RTFREE(ro-»ro rt); 

174 ro-»ro rt = (struct rtentry *) 0; 

175 } 

176 if ((inp->inp_socket->so_options & SO DONTROUTE) == 0 && /* XXX */ 

177 (ro-»ro rt == (struct rtentry *) 0 || 

178 ro-»ro rt-»rt ifp == (struct ifnet *) 0)) ( 

179 /* No route yet, so try to acquire one */ 

180 ro-»ro dst.sa family - AF INET; 

181 ro-»ro dst.sa len - sizeof(struct sockaddr in); 

182 ((struct sockaddr in *) &ro-»ro dst)-»sin addr = 

183 Sin-»sin addr; 

184 rtalloc (ro); 

185 ) 

186 /* 

187 * If we found a route, use the address 

188 * corresponding to the outgoing interface 

189 . * unless it is the loopback (in case a route 

190 * to our address on another net goes to loopback). 

191 */ 

192 if (ro-»ro rt && !(ro-»ro rt-»rt ifp-»if flags & IFF LOOPBACK)) 

193 ia - ifatoia(ro-»ro rt-»rt ifa); 

194 if (ia == 0) ( 

195 u short fport - sin-»sin port; 

196 Sin-»sin port = 0; 

197 ia = ifatoia(ifa ifwithdstaddr(sintosa(sin))); 

198 if (ia == 0) 

199 ia = ifatoia(ifa ifwithnet(sintosa(sin))); 

200 sin-»sin port - fport; ` 

201 if (ia == 0) 

202 ia = in ifaddr; 

203 if (ia == 0) 

204 return (EADDRNOTAVAIL); 

205 ) . 
in, pcb.c 


图 22-26 in pcbconnectiüZ: 没有 指定 本 地 IP 地 址 
3. PERUT HAA, NAKAA H 
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164-175 如果 PCB 中 含有 一 条 路 由 ， 但 该 路 由 的 目的 地 址 和 已 经 连接 上 的 外 部 地 址 不 同 ， 
或 者 SO_DONTROUTE 插 口 选项 被 置 位 ， 则 放弃 该 路 由 。 

为 了 理解 为 什么 - -个 PCB 会 含有 一 条 相关 路 由 ， 考 虑 本 节 开 始 的 表 中 的 情形 3: 每 次 在 一 
个 未 连接 上 的 插口 上 发 送 UDP 数 据 报时 , 就 调用 in_pcbconnect。 每 次 进程 调用 sendto 了 时 ， 
UDP 输 出 函数 调用 in_pcbconnect、ip_output 和 in_pcbdisconnect。 如 果 在 访 插 口 
上 发 送 的 所 有 数据 报 都 具有 相同 的 目的 IP 地 址 ， 则 第 一 次 通过 in_pcbconnect 时 ， 就 分 配 
了 一 条 路 由 ， 从 此 时 开始 可 以 使 用 该 路 由 。 但 是 ， 因 为 UDP 应 用 程序 可 能 在 每 次 调用 sendto 
时 ， 都 向 不 同 的 IP 地 址 发 送 数 据 报 ， 所 以 必须 比较 目的 地 址 和 保存 的 路 由 。 当 目的 地 址 改变 
有 时， 就 放弃 该 路 由 。ip_output 也 作 辣 样 的 检查 ， 这 看 起 来 似乎 是 多 余 的 。 

SO_DONTROUTE 插 口 选项 告诉 内 核 旁 路 掉 正常 的 选 路 决策 ， 把 该 IP 数 据 报 发 到 本 地 连接 
的 接 日 ， 该 接口 的 下 网 络 地 址 和 目的 地 址 的 网 络 部 分 匹配 。 

4. 获取 路 由 
176-185 如 果 设 有 置 位 SO_DONTROUTE 播 口 选 项 ， 则 PCB 中 没有 到 目的 地 的 路 由 ， 就 要 调 

用 rtalloc 获 取 一 条 路 由 。 

l 5. 确定 外 出 的 接口 

186-205 ”这 一 节 代 码 的 意图 是 让 ia 指向 一 个 接口 地 址 结构 (in_ifaddr，6.5 节 )， 该 结构 
中 包含 了 该 接口 的 IP 地 址 。 如 果 PCB 中 的 路 由 仍然 有 效 ， 或 者 如 果 rtalloc 找 到 一 条 路 由 ， 
并 且 该 路 由 不 是 到 回环 接口 的 ， 则 使 用 相应 的 接口 。 否 则 ， 调 用 ifa_withdastaddr 和 
ifa_withnet 检 查 该 外 部 IP 地 址 是 否 在 一 个 点 到 点 链 路 的 另 一 端 ， 或 者 位 于 一 个 连 到 的 网 络 
上 上 。 两 个 函数 都 要 求 插 口 地 址 结构 中 的 端口 号 为 0， 以 便 在 调用 期 间 保 存在 fport 中 。 如 果 失 
败 ， 就 用 原来 的 IP 地 址 (in_ifaddar)， 如 果 没 有 配置 接口 (jn_ifaddr 为 0)， 则 返回 错误 。 

图 22-27 显 示 了 in_pcbconnect 的 下 一 部 分 ， 处 理 目的 地 址 是 多 播 地 址 的 情况 。 
206-223 ”如果 目的 地 址 是 一 个 多 播 地 址 ， 且 进程 指定 了 多 播 分 组 的 外 出 接口 (用 
IP_MULTICAST_IF 插 口 选 项 )， 则 该 接口 的 下 地 址 被 用 作 本 地 地 址 。 搜 索 所 有 于 接口 ， 找 到 
与 插口 选项 所 指定 接口 的 匹配 。 如 果 该 接口 不 存在 ， 则 返回 错误 。 

224-225 图 22-26 的 开头 是 处 理 通 配 本 地 地 址 情形 的 完整 代码 。 指 向 本 地 接口 ia 的 
sockadqdr_in 结 构 的 指针 保存 在 ifaddqr 中 。 
in_pcblookup 的 最 后 一 部 分 显示 在 图 22-28 中 。 

6. 验证 插口 对 是 唯一 的 
227-233 in_pcblookup 验 证 播 只 对 是 唯一 的 。 外 部 地 址 和 外 部 端口 号 是 指定 给 
in_pcbconnect 的 参数 的 值 。 本 地 地 址 是 已 经 绑 定 到 该 播 吕 的 值 ， 或 者 是 ifaddr 中 我 们 刚 
刚 介 绍 的 代码 计算 出 来 的 值 。 本 地 端口 可 以 是 0， 对 TCP 客 户 程序 来 说 这 是 典型 的 。 我 们 将 在 
这 部 分 代码 的 后 面 看 到 ， 为 本 地 端口 选择 了 一 个 临时 端口 。 

这 个 测试 避免 从 相同 的 本 地 地 址 和 本 地 端口 上 建立 两 个 到 同一 外 部 地 址 和 外 部 端口 的 
TCP 连 接 。 例 如 ， 如 果 我 们 与 主机 sun 上 的 回 显 服务 器 建立 了 一 个 TCP 连 接 ， 然 后 试图 从 同一 
本 地 端口 (8888， 用 -b 选 项 指定 ) 建 立 另 一 条 到 同一 服务 器 的 连接 ， 调 用 in_pcblookup 后 返 
回 一 个 匹配 ， 导 致 connect 返 回 差 错 EADDRINUSE( 我 们 用 卷 1 附 录 C 的 sock 程 序 )。 

bsdi S sock -b 8888 sun echo & 启动 后 台 的 第 一 个 


bsdi S sock -A -b 8888 sun echo 然后 再 试 一 次 
connect() error: Address already in use 
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206 7. in, pcb.c 
207 * If the destination address is multicast and an outgoing 
208 * interface has been set as a multicast option, use the 
209 * address of that interface as our source address. 
210 */ 
211 if (IN MULTICAST (ntohl(sin-»sin addr.s addr)) && 
212 inp-»inp.moptions !- NULL) ( 
213 Struct ip moptions *imo; 
214 struct ifnet *ifp; 
215 imo - inp-»inp moptions; 
216 if (imo-»imo multicast ifp !- NULL) ( 
217 ifp = imo-»imo multicast, ifp; 
218 for (ia - in ifaddr; ia; ia - ia-»ia next) 
219 if (ia-»ia ifp -- ifp) 
220 . break; 
221 if (ia == 0) 
222 return (EADDRNOTAVAIL); 
223 J. 
224 ) 
225 ifaddr = (struct sockaddr in *) &ia-»ia adár; 
226 } 
in_pcb.c 
图 22-27 in_pcbconnect 国 数 : 目的 地 址 是 一 个 多 播 地 址 
: - - - —— in pcb.c 
227 if (in pcblookup(inp-»inp, head, 
228 Ssin-»sin, addr, 
229 Ssin-»sin, port, 
230 inp-»inp laddr.s addr ? inp-»inp.laddr : ifaddr-»sin addr, 
231 inp-»inp lport, 
232 0)) 
233 return (EADDRINUSE); 
234 if (inp-»inp laddr.s  addr == INADDR ANY) ( 
235 if (inp-»inp lport == 0) 
236 (void) in,pcbbind(inp, (struct mbuf *) 0); 
237 inp-»inp laddr = ifaddr-»sin addr; 
238 ) 
239 inp-»inp faddr = sin-»sin addr; 
240 inp-»inp.fport - sin-»sin port; 
241 return (0); 
242 } . 
in pcb.c 





图 22-28 in pcbconnectE E: 验证 插口 对 是 唯一 的 


我 们 指定 ~A 选 项， 设置 SO0_REUSEADDR 插 口 选项 ， 使 bind 成 功 ， 但 是 connect 不 成 功 。 
这 是 一 个 人 为 的 例子 ， 因 为 我 们 显 式 地 把 两 个 插口 都 绑 定 到 同一 本 地 端口 上 (8888)。 在 正常 情 
形 下 ， 主 机 bsdi 上 的 两 个 不 同 客户 程序 连接 到 sun 的 回 显 服务 器 上 ， 当 第 二 个 客户 程序 调用 
图 22-28 中 的 in_pcblookup 国 数 时 ， 本 地 端口 将 是 0。 

这 个 测试 也 避免 了 两 个 UDP 播 口 从 相同 的 本 地 端口 上 连接 到 同一 个 外 部 地 址 。 但 这 个 测 
试 不 能 避免 两 个 UDP 插口 从 同一 个 本 地 端口 上 交替 地 向 同一 个 外 部 地 址 发 送 数据 报 ， 只 要 它 
们 都 不 调用 connect。 因 为 UDP 插口 在 sendto 系 统 调 用 的 过 程 中 ， 只 是 临时 连接 到 一 个 对 
等 实体 上 。 

7. 隐 式 绑 定 和 分 配 临时 端口 
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234-238 ”如 果 插 口 的 本 地 地 址 仍然 是 通 配 匹 配 的 ， 则 把 它 设置 成 i faddr 中 保存 的 值 。 这 

是 一 个 隐 式 绑 定 : 22.7 节 开始 时 讲 的 情形 3、4 和 5$。 首 先 ， 检 查 本 地 端口 是 否 已 经 被 绑 定 ， 如 

果 设 有 ，in_pcbbind 就 把 该 播 口 绑 定 到 一 个 临时 端口 。 调 用 in_pcbbind 和 给 

inp_laddr 赋 值 的 顺序 很 重要 ， 因 为 如 果 本 地 地 址 不 是 通 配 地 址 ， 则 in_pcbbinq 会 失败 。 
8. 把 外 部 地 址 和 外 部 端口 存放 在 PCB T 

239-240 ”这 个 函数 的 最 后 一 步 设 置 PCB 的 外 部 IP 地 址 和 外 部 端口 号 成 员 。 如 果 这 个 函数 成 

功 返 回 ， 我 们 就 能 保证 PCB 中 的 插口 对 一 一 本 地 的 和 外 部 的 都 有 了 特定 的 值 。 


IP 源 地 址 与 外 出 接口 地 址 


在 IP 数 据 报 的 源 地 址 和 用 来 发 送 该 数据 报 接口 的 下 地 址 之 间 有 些微 妙 的 差别 。 

TCP 和 UDP 把 PCB 成 员 inp_Laddr 用 作 该 了 数据 报 的 源 地 址 。 它 可 由 进程 设 成 任何 被 
bind 配 置 的 接口 的 IP 地 址 (在 in_pcbbind 中 调用 ifa_ifwithaddr 验 证 应 用 程序 想 要 的 本 
地 地 址 )。 只 有 当 本 地 地 址 是 一 个 通 配 地 址 时 ，in_pcbconnect 才 给 它 赋 值 。 而 当 这 种 情况 
发 生 时 ， 本 地 地 址 是 根据 外 出 接口 分 配 的 (因为 目的 地 址 已 知 )。 

但 是 ， 外 出 接口 也 是 根据 县 的 卫 地 址 ， 由 ipP_output 确 定 的 。 在 多 接口 主机 上 ， 当 进程 
显 式 绑 定 一 个 不 同 于 外 出 接口 的 本 地 地 址 时 ， 源 地 址 有 可 能 是 一 个 本 地 接口 的 下 地 址 ， 且 该 
接口 不 是 外 出 的 接口 。 这 种 情况 是 允许 的 ， 因 为 Net/3 选 择 了 弱 端 系统 模式 (8.4 节 )。 





22.9 in pcbdisconnect 苞 数 


ip_pcbaisconnect 把 UDP 揪 口 断 连 。 把 外 部 下 地 址 设 成 全 0(INADDR_ANY)， 外 部 端 
口号 设 成 0， 就 把 外 部 相关 内 容 删 除了 。 

这 是 在 已 经 在 一 个 未 连接 上 的 UDP 插口 上 发 送 了 一 个 数据 报 后 ， 在 一 个 连接 上 的 UDP 插 
口上 调用 connect 时 做 的 。 在 第 一 种 情况 下 ， 调 用 sendto 的 次 序 是 : UDP 调用 
in_pcbconnect 把 插口 临时 连接 到 目的 地 ，udp_output 发 送 数据 报 ， 然 后 
in_pcbaisconnect 删 除 临 时 连接 。 

当 关 闭 插口 时 ， 不 调用 in_pcbdisconnect， 因 为 in_pcbdetach 处 理 释 放 PCB。 只 
有 当 一 个 不 同 的 地 址 或 端口 号 要 求 重用 该 PCB 时 ， 才 断 连 。 

22-220 f in pcbdisconnectiB7E. 


243 int in. peb.c 
244 in pcbdisconnect (inp) 
245 struct inpcb *inp; 
246 { 
247 inp-»inp, faddr.s, addr = INADDR, ANY; 
248 inp-»inp fport = 0; 
249 if (inp-»inp socket-»-so state & SS, NOFDREF) 
250 in, pcbdetach(inp); 
251 } . 
in, pcb.c 


图 22-29 in pcbdisconnectHRAÉ: 与 外 部 地 址 和 端口 号 断 连 


如 果 该 PCB 不 再 有 文件 表 引 用 (SS_NOFDREEF 置 位 )， 则 in_pcbdaetach( 图 22-7) 释 放 该 
PCB, 
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22.10 :in_setsockaddr 和 in_setpeeraddr 函 数 


getsockname 系 统 调 用 返回 插 日 的 本 地 协议 地 址 (例如 ，Internet 插 口 的 IP 地 址 和 端口 
号 )，getpeername 系 统 调用 返回 外 部 协议 地 址 。 两 个 系统 调用 终止 时 ， 都 发 布 一 个 
PRU_SOCKADDR 或 PRU_PEERADDR 请 求 。 然 后 协议 调用 in_setsockaddr 或 
in_setpeeraddr。 图 22-30 显 示 了 以 上 的 第 一 种 情况 。 





267 int in_pcb.c 
268 in setsockaddr(inp, nam) 
269 struct inpcb *inp; 
270 struct mbuf *nam; 
271 ( 
272 struct sockaddr in *sin; 
273 nam-»m len = sizeof(í(*sin); 
274 sin = mtod(nam, struct sockaddr in *); 
275 bzero((caddr t) sin, sizeof(*sin)); 
276 sin-»sin family = AF. INET; 
277 sin-»sin len = sizeof(*sin); 
278 Sin-»sin, port = inp-»inp lport; 
279 sin-»sin addr = inp-»inp. laddr; 
280 ) 
in. pcb.c 


[22-30 in setsockaddrgRER: 返回 本 地 地 址 和 端口 号 


参数 nam 是 一 个 指针 ， 该 指针 指向 一 个 用 来 存放 结果 的 mbuf: 一 个 sockaddr_in 结 构 ， 
系统 调用 复制 给 进程 的 备份 。 该 代码 填写 播 口 地 址 结构 的 内 容 ， 并 把 IP 地 址 和 端口 号 从 
Internet PCB 拷 贝 到 sin_addqr 和 sin_port 成 员 中 。 

图 22-31 显 示 了 in_setpeeraddr 图 数 。 它 基本 上 等 同 于 图 22-30 中 的 代码 ， 但 从 PCB 中 


拷贝 了 外 部 IP 地 址 和 端口 号 。 

281 int . in peb.c 

282 in setpeeraddr(inp, nam) 

283 struct inpcb *inp; 

284 struct mbuf *nam; 

285 ( 

286 struct sockaddr, in *sin; 

287 nam-»m len - sizeof(*sin); 

288 sin = mtod(nam, struct sockaddr in *); 

289 bzero((caddr t) sin, sizeof(*sin)); 

290 Sin-»sin family = AF, INET; ` 

291 sin->sin_len = sizeof(*sin); 

292 sin-»sin,port = inp->inp_fport; 

293 sin-»sin addr = inp->inp_faddr; 

294 } . 
in_peb.c 
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图 22-31 in_setpeeraddr 函 数 : 返回 外 部 地 址 和 端口 号 


in pcbnotify, in rtchange 和 in losing 函 数 


当 收 到 一 个 ICMP 差 错时 ， 调 用 in_pcbnotify 国 数 ， 把 差错 通知 给 合适 的 进程 。 通 过 
对 所 有 的 PCB 搜 索 一 个 协议 (TCP 或 UDP)， 并 把 本 地 和 外 部 IP 地 址 及 端口 号 与 ICMP 差 错 返 回 
的 值 进行 比较 ， 找 到 “合适 的 进程 ”。 例 如 ， 当 因为 一 些 路 由 器 丢掉 了 某 个 TCP 报 文 段 而 收 到 
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ICMP 源 抑制 差错 时 ，TCP 必 须 找 到 产生 该 差错 的 连接 的 PCB， 放 慢 在 该 连接 上 的 传输 速度 。 
在 显示 该 函数 之 前 ， 我 们 必须 回顾 一 下 它 是 怎样 被 调用 的 。 图 22-32 总 结 了 处 理 ICMP 差 
错时 调用 的 函数 。 两 个 有 阴影 的 椭圆 是 本 节 描 述 的 函数 。 





协议 的 控制 pfctlinput: 所 有 
输入 函数 协议 的 控制 输入 函数 


AEX) 





(软件 中 断 ) 
图 22-32 ICMP 差 错 处 理 总 结 


当 收 到 一 个 ICMP 报 文 时 ， 调 用 icmp_input。ICMP 的 五 种 报 文 按 差错 来 划分 (图 11-1 和 
图 11-2): 

。 目 的 主机 不 可 达 ; 

* 参数 问题 ; 

。 重 定向 ; 

。 源 抑制 ; 

。 超 时 。 

重 定向 的 处 理 不 同 于 其 他 四 个 差错 。 所 有 其 他 的 ICMP 报 文 (查询 ) 的 处 理 见 第 11 章 。 

每 个 协议 都 定义 了 它 的 控制 输入 函数 ， 即 protosw 结 构 (7.4 节 ) 中 的 pr_ctlinput 人 人口 。 
对 TCP 和 UDP， 它 们 分 别称 为 tcp_ctliinput 和 udp_ctlinput,， 我 们 将 在 后 面 几 章 给 出 它 
们 的 代码 。 因 为 收 到 的 ICMP 差 错 中 包含 了 引起 差错 的 数据 报 的 卫 首 部 ， 所 以 引起 该 差错 的 协 
议 (TCP 或 UDP) 是 已 知 的 。 这 五 个 ICMP 差 错 中 的 四 个 将 引起 对 协议 的 控制 输入 函数 的 调用 。 
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重 定向 的 处 理 不 同 : 调用 函数 pfctlinput， 它 继续 调用 协议 族 (Interneb 中 所 有 协议 的 控制 
输入 函数 。TCP 和 UDP 是 Internet 协 议 族 中 仅 有 的 两 个 具有 控制 输入 函数 的 协议 。 

重 定向 的 处 理 是 特殊 的 ， 因 为 它们 不 仅 影响 产生 重 定向 的 数据 报 ， 还 将 影响 所 有 到 该 目 
的 地 的 IP 数 据 报 。 另 一 方面 ， 其 他 四 个 差错 只 需 由 产生 差错 的 协议 进行 处 理 。 
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int 
in pcbnotify(head, dst, fport arg, laddr, lport arg, cmd, notify) 
struct inpcb *head; 
struct sockaddr *dst; 
u int fport arg, lport, arg; 
struct in, addr laddr; 
int cmd; 
void (*notify) (struct inpcb *, int); 
{ 
extern u_char inetctlerrmap[]; 
struct inpcb *inp, *oinp; 
struct in,addr faddr; 
u short fport - fport arg, lport - lport arg; 
int errno; 


if ((unsigned) cmd » PRC NCMDS || dst-»sa family !- AF INET) 
return; 

faddr = ((struct sockaddr in *).dst)-»sin addr; 

if (faddr.s addr -- INADDR ANY) 
return; 


Redirects go to all references to the destination, 
and use in rtchange to invalidate the route cache. 
Dead host indications: notify all references to the destination. 
Otherwise, if we have knowledge of the local port and address, 
* deliver only to that socket. 
*/ 
if (PRC IS REDIRECT(cmd) || cmd -- PRC HOSTDEAD) ( 
fport 0; 
lport = 0; 
laddr.s addr = 0; 
if (cmd != PRC HOSTDEAD) 
notify - in rtchange; 


+ 站 + + * 


} 
errno = inetctlerrmap[cmd]; 
for (inp = head-»inp next; inp != head;) ( 
if (inp->inp_faddr.s_addr !- faddr.s addr |l 
inp-»inp socket == NI 
(lport && inp-»inp lport !- lport) |! 
(laddr.s addr && inp-»inp laddr.s addr !- laddr.s addr) || 
(fport && inp-»inp fport != fport)) { 
inp = inp-»inp. next; 
continue; /* skip this PCB */ 
) 
oinp - inp; 
inp - inp-»inp next; 
if (notify) 
(*notify) (oinp, errno); 


图 22-33 in_spcbnotify 函 数 : 把 差错 通知 传 给 进程 


in_pcb.c 
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有 关 图 22-32 我 们 要 做 的 最 后 一 点 说 明 是 ，TCP 在 处 理 源 抑制 差错 时 ， 与 其 他 差错 的 处 理 
不 同 ， 而 重 定向 由 in_pcbnotify 特 别处 理 : 不 管 引起 差错 的 是 什么 协议 ， 都 调用 
in  rtchangeifi E. 

图 22-33 显 示 了 ip_Pcbnotify 国 数 。 当 TCP 调 用 它 时 ， 第 一 个 参数 是 Ecb 的 地 址 ， 最 后 
一 个 参数 是 函数 tcp_notify 的 地 址 。 对 UDP 来 说 ， 这 两 个 参数 分 别 是 udb 的 地 址 和 函数 
udp_notify 的 地 址 。 

1. 验证 参数 
306-324 验证 cmd 参 数 和 目的 地 址 族 。 检 测 外 部 地 址 ， 保 证 它 不 是 0.0.0.0。 

2. 特殊 处 理 重 定向 
325-338 如 果 差 错 是 重 定 向 ， 则 对 它 的 处 理 是 特殊 的 (差错 PRC_HOSTDERAD 是 一 种 旧 的 差错 ， 
由 IMP 产 生 。 目 前 的 系统 再 也 看 不 到 这 种 差错 了 一 一 它 是 一 个 历史 产物 )。 外 部 端口 、 本 地 端口 
和 本 地 地 址 都 被 设 成 全 0， 这 样 后 面 的 for 循 环 就 不 会 比较 它们 了 。 对 于 重 定向 ， 我 们 需要 该 
循环 只 根据 外 部 IP 地 址 选 出 接收 通知 的 PCB， 因 为 主机 是 在 这 个 IP 地 址 上 接收 到 重 定向 的 。 而 
且 ， 为 重 定向 调用 的 函数 是 in_rtchange( 图 22-34)， 而 不 是 调用 方 指定 的 notify 参 数 。 
339 ”全 局 数组 inetctlerrmap 把 协议 无 关 差 错 码 (图 11-19 中 的 PRC_xxx 值 映射 到 它 对 应 的 
Unix 的 errno 值 (图 11-1 的 最 后 一 栏 )。 

3. 为 所 选 的 PCB 调 用 通知 函数 
341-353 这 个 循环 选择 要 通知 的 PCB。 可 以 通知 多 个 PCB 一 一 该 循环 在 找到 匹配 后 仍然 继 
续 。 第 一 个 i£ 语 句 结合 了 五 个 检测 ， 如 果 这 五 个 中 有 任 一 个 为 真 ， 则 跳 过 该 PCB: (1) 如 果 外 
部 地 址 不 相等 ; (2) 如 果 该 PCB 没 有 对 应 的 socket 结 构 ; (3) 如 果 本 地 端口 不 相等 ; (4) 如 果 本 
地 地 址 不 相等 ; 或 (5) 如 果 外 部 端口 不 相等 。 外 部 地 址 必须 匹配 ， 但 只 有 当 对 应 的 参数 非 零 时 ， 
才 比 较 其 他 三 个 外 部 和 本 地 参数 。 当 找到 一 个 匹配 时 ， 调 用 notify 函 数 。 


22.11.1 in_rtchange 函 数 


我 们 看 到 ， 当 ICMP 差 错 是 一 个 重 定向 时 ，in_pcbnotify 调 用 in_rtchange 国 数 。 对 
所 有 外 部 地 址 与 已 重 定 向 的 IP 地 址 匹配 的 PCB， 都 调用 该 函数 。 图 22-34 显 示 了 
in_rtchange 国 数 。 





391 void in pebc 
392 in rtchange(inp, errno) 
393 struct inpcb *inp; 
394 int errno; 
395 ( 
396 if (inp-»-inp route.ro rt) { 
397 rtfree(inp-»inp, route.ro rt); 
398 inp-»inp route.ro rt = 0; 
399 /* 
400 * A new route can be allocated the next time 
401 * output is attempted. 
402 */ 
403 ) 
404 ) - 
in pcb.c 





图 22-34 in_rtchange 国 数 : 使 路 由 无 效 
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如 果 该 PCB 中 有 路 由 ， 则 ztfree 释 放 该 路 由 ， 且 该 PCB 成 员 被 标记 为 空 。 此 时 ， 我 们 不 
用 重 定向 返回 的 路 由 来 更 新 路 由 。 当 这 个 PCB 被 再 次 使 用 时 ，ip_output 会 根据 内 核 的 选 路 
表 重 新 分 配 新 的 路 由 ， 而 该 选 路 表 是 在 调用 pfct1linput 之 前 ， 由 重 定向 报 文 更 新 的 。 


22.11.2 ” 重 定向 和 原始 插口 


让 我 们 来 研究 一 下 重 定向 、 原 始 插口 和 缓存 在 PCB 中 的 路 由 之 间 的 交互 。 如 果 我 们 运行 
Ping 程 序 ， 该 程序 使 用 一 个 原始 播 口 ， 收 到 来 自 被 ping 的 下 地 址 发 来 的 ICMP 重 定向 差错 。 
Ping 程 序 继续 使 用 原来 的 路 由 ， 而 不 是 已 重 定向 的 路 由 。 我 们 可 以 从 以 下 过 程 来 看 。 

我 们 从 位 于 1 402 521 网 络 上 的 gemini 主 机 ping 位 于 14 025 213 网 络 上 的 svr4 主 机 。 
gemini 的 默认 路 由 是 gateway， 但 分 组 应 该 被 发 送 到 路 由 器 netb。 图 22-35 显 示 了 这 个 安排 。 








ping 客户 
重新 选 路 到 140.252.1.183 
gateway F~-~-----------~-— gemini 





ping 目的 地 


以 太 网 140.252.13 


图 22-35 ICMP 重 定向 举例 
我 们 希望 gateway 在 收 到 第 一 个 ICMP 回 显 请 求 时 ， 发 一 个 重 定向 。 


gemini $ ping -sv svr4 
PING 140.252.13.34: 56 data bytes 
ICMP Host redirect from gateway 140.252.1.4 
to netb (140.252.1.183) for svr4 (140.252.13.34) 
64 bytes from svr4 (140.252.13.34): icmp seq-0. time-572. ms 
ICMP Host redirect from gateway 140.252.1.4 
to netb (140.252.1.183) for svr4 (140.252.13.34) 
64 bytes from svr4 (140.252.13.34): icmp seq-1. time-392. ms 


选项 -s 使 每 隔 一 秒 发 送 一 次 ICMP 回 显 请 求 ， 选 项 -v 打 印 每 个 收 到 的 ICMP 报 文 (不 仅仅 是 
ICMP 回 显 回答 )。 

每 个 ICMP 回 显 请 求 引 出 一 个 重 定向 ， 但 ping 使 用 的 原始 播 口 从 来 不 通知 重 定向 改变 它 正 
在 使 用 的 路 由 。 第 一 次 计算 出 来 并 被 保存 在 PCB 中 的 路 由 ， 使 IP 数 据 报 被 发 送 到 路 由 器 
gateway{140.252.1.4}， 应 该 更 新 它 ， 使 数据 报 能 被 发 送 到 路 由 器 netb{140.252.1.183} 上 。 
我 们 看 到 ，gemini 上 的 内 核 接收 ICMP 重 定向 ， 但 它们 被 略 过 了 。 

如 果 我 们 终止 ping 程 序 ， 并 重新 运行 它 ， 我 们 就 再 也 看 不 到 重 定向 了 : 


gemini $ ping -sv svr4 
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PING 140.252.13.34: 56 data bytes 
64 bytes from svr4 (140.252.13.34): icmp seq-0,time-388. ms 
64 bytes from svr4 (140.252.13.34): icmp seq-1. time-363. ms 


这 个 不 正常 的 原因 是 原始 下 插口 代码 (第 32 章 ) 没 有 控制 输入 函数 。 只 有 TCP 和 UDP 有 控制 
输入 函数 。 当 收 到 重 定向 时 ，ICMP 更 新 内 核 的 选 路 表 ， 调 用 pfct1input( 图 22-32)。 但 是 因 
为 原始 下 协议 设 有 控制 输入 函数 , 所 以 不 释放 与 Ping 的 原始 插口 相关 的 PCB 中 高 速 缓存 的 路 由 。 
但 是 ， 当 我 们 第 二 次 运行 ping 程 序 时 ， 根 据 内 核 更 新 后 的 选 路 表 分 配 路 由 ， 所 以 我 们 看 不 到 
重 定向 了 。 


22.11.3 ICMP3ESSRIUDPHE NO 


插口 API 令 人 迷惑 的 一 部 分 是 ， 不 把 在 UDP 插 口上 收 到 的 ICMP 差 错 传 给 应 用 程序 ， 除 非 
该 应 用 程序 在 该 插口 上 发 布 connect， 限 制 该 插口 的 外 部 IP 地 址 和 端口 号 。 现 在 我 们 来 看 一 
下 in_pcbnotify 是 如 何 实 施 这 一 限制 的 。 

考虑 某 个 ICMP 插 日 不 可 达 ， 这 大 概 是 UDP 插 口上 最 普通 的 一 种 ICMP 差 错 了 。 
in_pcbnotify 的 dst 参 数 内 的 外 部 IP 地 址 和 外 部 端口 号 是 引起 ICMP 差 错 的 IP 地 址 和 端口 
号 。 但是， 如 果 该 进程 已 经 在 该 插口 上 发 布 connect 命 令 ， 则 PCB 的 jnp_faddr 和 
inp_fport 成 员 都 是 90， 避免 in_pcbnotify 在 该 插口 上 调用 notify 函 数 。 图 22-33 中 的 
for 循 环 将 跳 过 每 个 UDP PCB. 

产生 这 个 限制 的 原因 有 两 个 。 首 先 ， 如 果 正 在 发 送 的 进程 有 一 个 未 连接 上 的 UDP 插口 ， 
则 该 播 口 对 中 唯一 的 非 零 元 素 是 本 地 端口 (假定 该 进程 不 调用 bindq)。 这 是 in_pcbnotify 在 
分 用 进入 的 ICMP 差 错 ， 并 把 它 传 给 正确 进程 时 ， 唯 一 可 用 的 值 。 尽 管 很 少 发 生 ， 但 也 可 能 有 
多 个 进程 都 绑 定 到 相同 的 本 地 端口 上 ， 所 以 具体 由 哪个 进程 接收 ICMP 差 错 就 不 明确 了 。 还 有 
一 种 可 能 就 是 ， 发 送 引 起 ICMP 差 错 数据 报 的 进程 已 经 终止 了 ， 而 另 一 个 进程 又 开始 运行 并 使 
用 同一 本 地 端口 。 这 也 不 太 可 能 ， 因 为 临时 端口 是 从 1024 到 5000 按 顺序 分 配 的 ， 只 有 循环 一 
遍 以 后 才 可 能 重用 同一 端口 号 (图 22-23)。 

这 个 限制 的 第 二 个 原因 是 ， 内 核 给 进程 的 差错 通知 一 一 一 个 errno 值 一 一 是 不 够 的 。 考 
虑 某 个 进程 连续 三 次 在 一 个 未 连接 上 的 UDP 插 口上 调用 sendto 函 数 ， 向 三 个 不 同 的 目的 地 发 
送 一 个 UDP 数 据 报 ， 然 后 用 recvfrom 等 待 回答 。 如 果 其 中 一 个 数据 报 生成 一 个 ICMP 端 口 不 
可 达 差 错 ， 且 内 核 将 向 该 进程 发 布 的 recvfrom 返 回 对 应 的 差错 (ECONNREFUSED)， 那 么 ， 
errno 值 并 没有 告诉 进程 是 哪个 数据 报 产生 了 该 差错 。 内 核 具有 ICMP 差 错 所 要 求 的 所 有 信息 ， 
但 是 插口 API 并 不 提供 手段 把 这 些 信息 返回 给 该 进程 。 

因此 ， 如 果 进 程 想 要 得 到 在 某 个 UDP 插 口上 的 这 些 ICMP 差 错 通 知 ， 在 设计 时 就 必须 决定 
插口 只 能 连接 到 一 个 对 等 实体 上 。 如 果 在 该 连接 上 的 插口 返回 ECONNREFUSED 差 错 ， 毫 无 疑 
问 就 是 该 对 等 实体 产生 的 差错 。 

还 有 一 种 远程 可 能 性 ， 会 把 ICMP 差 错 交付 给 错误 的 进程 。 假 设 某 个 进程 发 送 了 一 个 UDP 
数据 报 ， 引 起 一 个 ICMP 差 错 ， 但 它 在 收 到 该 差错 之 前 终止 了 。 另 一 个 进程 在 收 到 该 差错 之 前 
开始 运行 ， 并 且 绑 定 到 同一 个 本 地 端口 ， 连 接 到 相同 的 外 部 地 址 和 外 部 端口 上 ， 导 致 这 个 新 
进程 接收 到 前 面 的 ICMP 差 错 。 由 于 UDP 缺少 内 存 ， 所 以 无 法 避免 这 种 情况 的 发 生 。 我 们 将 看 
到 TCP 用 它 的 TIME_WAIT 状 态 处 理 这 个 问题 。 

在 我 们 前 面 的 例子 中 ， 应 用 程序 绕 开 这 个 限制 的 一 个 办 法 是 使 用 三 个 连接 上 的 UDP 插口 ， 
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而 不 是 一 个 未 连接 上 的 揪 口 ， 并 在 其 中 任意 一 个 有 收 到 的 数据 报 或 差错 要 读 写 时 ， 调 用 
select x Wa. 
这 里 载 们 有 一 种 情形 是 内 核 有 足够 的 信息 而 API( 插 口 ) 的 信息 不 足 。 大 多 数 Unix 
系统 V 及 其 他 常见 的 APICTLD ， 其 这 为 真 : TLI 光 数 t_rcvuderr 可 以 返回 对 等 实体 
的 IP 地 址 、 端 口号 以 及 一 个 差错 值 。 但 大 多 数 TCP/IP 的 SVR4 流 实现 都 不 为 ICMP 提 
供 手 段 ， 把 差错 传递 给 一 个 未 连接 上 的 UDP 端 节点 。 
在 理想 情况 下 ，in_pcbnotify 把 ICMP 差 错 交 付 给 所 有 匹配 的 UDP 插口 ， 即 使 
唯一 的 非 通 配 匹 配 是 本 地 彤 口 。 返 回 给 进程 的 差错 将 包括 产生 差错 的 目的 地址 和 
目的 UDP 闯 口 ， 允 许 进程 确定 该 差错 是 否 是 它 发 送 的 数据 报 产生 的 。 


22.11.4 in losing 函 数 


处 理 PCB 的 最 后 一 个 函数 图 22-36 的 in_1osing。 当 TCP 的 某 个 连接 的 重 传 定时 器 连续 第 
三 次 超时 时 ， 调 用 该 函数 。 


361 int in peb.c 
362 in losing(inp) 
363 struct inpcb *inp; 
364 ( 
365 struct rtentry *rt; 
366 struct rt addrinfo info; 
367 if ((rt = inp-»inp.route.ro rt)) ( 
368 inp-»inp route.ro rt = 0; 
369 bzero((caddr t) & info, sizeof(info)); 
370 info.rti info[RTAX DST] - 
371 (struct sockaddr *) &inp-»inp route.ro dst; 
372 info.rti info[RTAX GATEWAY] = rt-»rt gateway; 
373 info.rti, info[RTAX NETMASK] = rt mask(rt); 
374 rt missmsg(RTM LOSING, &info, rt-»rt.flags, 0); 
375 if (rt-»rt flags & RTF, DYNAMIC) 
376 (void) rtrequest(RTM DELETE, rt key(rt), 
377 rt-»rt gateway, rt mask(rt), rt-»rt flags, 
378 (struct rtentry **) 0); 
379 else 
380 /* 
381 * A new route can be allocated 
382 * the next time output is attempted. 
383 */ 
384 rtfree(rt); 
385 ) 
386 } . 
in pcb.c 
图 22-36 in_losing 国 数 : 使 高 速 缓存 路 由 信息 无 效 
l. 产生 选 路 报 文 


361-374 ”如 果 PCB 中 有 一 个 路 由 ， 则 丢掉 该 路 由 。 用 要 失效 的 高 速 缓存 路 由 的 有 关 信 息 填 
充 一 个 rt_addrinfo 结 构 。 然后 调用 rt_missmsg 函 数 ， 从 RTM_LOSING 类 型 的 选 路 插口 
中 生成 一 个 报 文 ， 指 明 有 关 该 路 由 的 问题 。 

2. 删除 或 释放 路 由 
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375-384 如 果 高 速 缓存 路 由 是 由 一 个 重 定向 生成 的 (RTF_DYNRAMIC 置 位 )， 则 用 请 求 
RTM_DELETE 调 用 rtrequest， 删 除 该 路 由 。 否 则 释放 高 速 缓存 的 路 由 ， 这 样 ， 当 该 插口 上 
有 下 一 个 输出 时 ， 为 它 重新 分 配 一 条 到 目的 地 的 路 由 一 一 希望 是 一 条 更 好 的 路 由 。 


2242 实现 求 精 


毫 无 疑问 ， 这 一 章 我 们 遇 到 的 最 耗 时 的 算法 是 in_pcblookup 做 的 对 PCB 的 线性 搜索 。 
22.6 节 一 开始 ， 我 们 就 注意 到 有 四 种 情况 会 调用 这 个 函数 。 可 以 忽略 对 bind 和 connect 的 调 
用 ， 因 为 TCP 和 UDP 在 分 用 每 个 收 到 的 IP 数 据 报时 ， 调 用 它们 的 次 数 比 调用 in_pcblookup 
的 少 得 多 。 

后 面 几 章 我 们 将 看 到 ，TCP 和 UDP 试图 帮助 这 个 线性 搜索 ， 它 们 都 维护 一 个 指向 该 协议 
引用 的 最 后 一 个 PCB 的 指针 : 一 个 单 人 日 高 速 缓存 。 如 果 高 速 缓存 的 PCB 的 本 地 地 址 、 本 地 
端口 、 外 部 地 址 和 外 部 端口 与 收 到 的 数据 报 的 值 匹配， 则 协议 根本 就 不 调用 in_pcblookup。 
如 果 协 议 数据 适合 分 组 列 模型 [Jain 和 Routhier 1986] ， 这 个 简单 的 高 速 缓存 效果 很 好 。 但 是 ， 
如 果 数 据 不 适合 这 个 模型 ， 例 如 ， 看 起 来 象 联机 交易 处 理 系统 的 数据 入 口 ， 则 单 和 人口 高 速 组 
存 的 效率 很 低 [McKenney 和 Dove 1992]. 

一 个 稍 好 一 点 的 PCB 安 排 的 建议 是 ， 当 引用 某 个 PCB 时 ， 把 它 移 到 该 PCB 表 的 最 前 面 
([McKenney 和 Dove 1992] 把 这 个 想法 给 了 Jon Crowcroft; [Partridge 和 Pink 1993] 把 它 给 了 
Gary Delp)。 移 动 PCB 很 容易 ， 因 为 该 表 是 一 个 双向 链表 ， 而 且 in_pcblookup 的 第 一 个 参 
数 是 一 个 指向 该 表 表 头 的 指针 。 

[McKenney 和 Dove 1992] 把 原始 的 NeUV1 实 现 ( 没 有 高 速 缓 存 )， 一 种 提高 的 单 人 口 发 送 - 接 
收 高 速 缓存 , “ 移 到 最 前 面 ”启发 算法 ， 以 及 他 们 自己 的 使 用 散 列 链 的 算法 做 了 上 比较。 他 们 指 
出 ， 在 散 列 链 上 维护 一 个 PCB 的 线性 表 比 其 他 算法 的 性 能 提高 了 一 个 数量 级 。 散 列 链 的 唯一 
耗费 是 需要 内 存 存放 散 列 链 的 链 头 ， 以 及 计算 散 列 函数 。 他 们 也 考虑 把 “ 移 到 最 前 面 ”启发 
算法 与 他 们 的 散 列 链 算 法 结合 ， 结 论 是 只 增加 一 些 散 列 链 ， 更 为 简单 。 

BSD 线 性 搜索 和 散 列 表 搜索 的 另 一 个 比较 是 在 [Hutchinson 和 Peterson 1991] 中 。 他 们 指出 ， 
随 着 散 列表 中 插口 数量 的 增加 ， 分 用 一 个 进入 的 UDP 数据 报 所 需要 的 时 间 是 常量 ， 但 线性 搜 
索 所 需要 的 时 间 随 播 口 数量 的 增加 而 增加 。 


22.13 小 结 


每 个 Internet 插 口 都 有 一 个 相关 的 Internet PCB: TCP、UDP 和 原始 IP。 它 包含 了 Internet 插 
口 的 一 般 信 息 : 本 地 和 外 部 IP 地 址 ， 指 向 一 个 路 由 结构 的 指针 等 等 。 给 定 协议 的 所 有 PCB 都 
放 在 该 协议 维护 的 一 个 双向 链表 上 。 

本 章 中 ， 我 们 研究 了 多 个 操作 PCB 的 函数 ， 对 其 中 的 三 个 作 了 详细 的 讨论 : 

1) TCP 和 UDP 调 用 in_pcblookup 分 用 每 个 进入 的 数据 报 。 它 选择 接收 数据 报 的 插口 ， 
考虑 通 配 匹配 。 

in_pcbbind 也 调用 这 个 函数 来 验证 本 地 地 址 和 本 地 进程 是 唯一 的 ; in pcbconnect 
调用 这 个 函数 验证 本 地 地 址 、 本 地 进程 、 外 部 地 址 和 外 部 进程 的 组 合 是 唯一 的 。 

2) in_pcbbind 显 式 或 隐 式 地 把 一 个 本 地 地 址 和 本 地 端口 号 绑 定 到 一 个 插口 。 当 进程 调 
用 bind 时 ， 发 生 显 式 绑 定 ; 当 一 个 TCP 客 户 程序 调用 connect 而 不 调用 bind 时 ， 或 当 一 个 
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UDP 进 程 调 用 sendto 或 connect 而 不 调用 bind 时 ， 发 生 隐 式 绑 定 。 
3) in_pcbconnect 设 置 外 部 地 址 和 外 部 进程 。 如 果 进 程 还 没有 设置 本 地 地 址 ， 计 算 一 
条 到 外 部 地 址 的 路 由 ， 结 果 的 本 地 接口 成 为 本 地 地 址 。 如 果 进 程 还 没有 设置 本 地 端口 ， 
in_pcbbing 为 揪 口 选择 一 个 临时 端口 。 
图 22-37 对 多 种 TCP 和 UDP 应 用 程序 以 及 存放 在 PCB 中 的 本 地 地 址 ， 本 地 端口 、 外 部 地 址 
和 外 部 端口 的 值 做 了 总 结 。 我 们 还 没有 讨论 完 图 22-37 中 TCP 和 UDP 进程 的 所 有 动作 ， 将 在 后 


面 的 章节 中 继续 讨论 。 


TCP 客 户 程序 : 


connect  (foreignlIP, 


fport) 


TCPX PE: bind 
(locallP lport) connect 
(foreignIP.fport) 

TCP 客 户 程 序 : 
bind(*, lport) connect 


(foreignlP fport) 


TCP 客 户 程序 :bina 
(locallP, 0) connect 
(foreignIB, fport) 


TCP 服 务 器 程序 : 


bind(localIP, lport) 


listen(QacceptO 
TCP 服 务 器 程序 : bind 

(*, 

accept() 


lport) listen() 


UDP 客户 程序 : 
sendto(foreignIP, fport) 


UDP 客户 程序 : 
connect(foreignlIP, 


fport) writeQ 


本 地 地 址 : 
inp_laddr 


in_pcbconnect 
调用 rtalloc 为 
foreignIP 分 配 路 由 。 


本 地 地 址 是 本 地 接口 
locallP 


in_pcbconnect 
调用 rtalloc 为 
foreignIP 分 配 路 由 。 
本 地 地 址 是 本 地 接口 
localIP 


localIP 


IP 首 部 里 的 目的 地 
址 


in pcbconnect 
调用 rtalloc 为 
foreignIP 分 配 路 由 。 
本 地 地 址 是 本 地 接口 。 
在 发 送 完 数 据 报 之 后 ， 
置 位 为 0.0.0.0 

in_pcbconnect 
调用 rtalloc 为 
foreignIP 分 配 路 由 。 
本 地 地 址 是 本 地 接 
口 。 后 面 调用 write 
时 不 改变 


外 部 端口 : 


inp. fport 


外 部 地 址 : 
inp faddr 


in, pcbconnect fport 


调用 in_pcbbind 选 
择 临 时 端口 。 


ui 


in_pcbbind 选 择 foreignIP 


临时 端口 
IP 首 部 内 的 源 
地 址 


foreignIP 


TCP 首 部 内 
的 源 端 口 地 址 


in, pcbconnect 
调用 in_pcbbind 选 
择 临时 端口 。 后 面 调 
用 sendto 了 时 不 改变 


TCP 首 部 内 
的 源 端 口 地 址 


foreignIP。 发 
送 完 数据 报 后 ， 
置 位 为 0.0.0.0 


foreignIP 
foreigniP 


fport。 发 送 
完 数据 报 后 ， 
置 位 为 0 


in_pcbconnect 
调用 in_pcbbind 选 
择 临时 端口 。 后 面 调 
用 write 时 不 改变 





图 22-37 in_pcbbind 和 in_pcbconnect 的 总 结 
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在 图 22-23 中 ， 当 进程 请 求 一 个 临时 端口 ， 而 所 有 临时 端口 都 被 使 用 时 ， 会 发 生 什 
么 情况 ? 

在 图 22-10 中 ， 我 们 显示 了 两 个 有 正在 监听 插口 的 Telnet 服 务 器 : 一 个 具有 特定 本 地 
IP 地 址 ; 另 一 个 的 本 地 IP 地 址 是 通 配 地 址 。 你 的 系统 的 Telnet 守 护 程序 允许 你 指定 
本 地 IP 地 址 吗 ? 如果 人 允许 ， 如 何 指定 ? 

假定 茶 个 插口 被 绑 定 到 本 地 插口 {140.252.1.29, 8888}， 且 这 是 唯一 使 用 本 地 插口 
8888 的 插口 。(1) 当 有 另 一 个 插口 绑 定 到 {140.252.1.29,，8888} 时 ， 请 执行 
in_pcbbind 的 所 有 步骤 ， 假 定 没 有 任何 插口 选项 。(2) 当 有 另 一 个 插口 绑 定 到 通 
配 IP 地 址 ， 端 口 8888 时 ， 执 行 jn_pcbbind 的 所 有 步骤 ， 假 定 没 有 任何 插口 选项 。 
(3) 当 有 另 一 个 插口 绑 定 到 通 配 IP 地 址 ， 端 口 8888 时 ， 且 设 定 了 插口 选项 
SO REUSEADDR, jfhfrin pcbbindBWJHpÉ EUR. 

UDP 分 配 的 第 一 个 临时 端口 号 是 什么 ? 

当 进 程 调用 bind 时 ， 必 须 填充 sockaddr_in 结 构 中 的 哪 一 个 元 素 ? 

如 果 进 程 要 bind 一 个 本 地 广播 地 址 时 ， 会 发 生 什么 情况 ?如 果 进 程 要 bind 受 限 广 
播 地 址 (255.255.255.255) 时 ， 会 发 生 什 么 情况 ? 


第 23 章 UDP: 用户 数据 报 协议 


23.1 引言 


用 户 数据 报 协议 ， 即 UDP， 是 一 个 面向 数据 报 的 简单 运输 层 协 议 : 进程 的 每 次 输出 操作 
只 产生 一 个 UDP 数据 报 ， 从 而 发 送 一 个 卫 数 据 报 。 

进程 通过 创建 一 个 Internet 域 内 的 SOCK__DGRAM 类 型 的 插口 ， 来 访问 UDP。 该 类 插口 默认 
地 称 为 无 连接 的 (unconnected)。 每 次 进程 发 送 数 据 报时 ， 必 须 指 定 上 且 的 IP 地 址 和 端口 号 。 每 
次 从 桂 口 上 接收 数据 报时 ， 进 程 可 以 从 数据 报 中 收 到 源 IP 地 址 和 端口 号 。 

我 们 在 22.5 节 中 提 到 ，UDP 桂 日 也 可 以 被 连接 到 一 个 特殊 的 IP 地 址 和 端口 号 。 这 样 ， 所 有 
写 到 该 插口 上 的 数据 报 都 被 发 往 该 目的 地 ， 而 且 只 有 来 自 该 卫 地 址 和 端口 号 的 数据 报 才 被 传 
给 该 进程 。 

本 章 讨论 UDP 的 实现 。 
23.2 代码 介绍 


9 个 UDP 函 数 在 一 个 C 文 件 中 ，2 个 UDP 定 义 的 头 文 件 ， 如 图 23-1 所 示 。 
图 23-2 显 示 了 6 个 主要 的 UDP 国 数 与 其 他 内 核 函 数 之 间 的 关系 。 带 阴影 的 椭圆 是 本 章 我 们 
讨论 的 6 个 函数 ， 另 外 还 有 其 他 3 个 函数 是 这 6 个 函数 经 常 调 用 的 。 


netinet/udp.h udphdr£ifgsE X. 
netinet/udp var.h 其 他 UDP 定义 


图 23-1 本 章 中 讨论 的 文件 









sysctl 


系统 调用 系统 初始 化 插口 接收 缓冲 区 多 个 系统 调用 








软件 中 断 
图 23-2 UDP 函数 与 内 核 其 他 函数 之 间 的 关系 
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23.2.1 


本 章 引 入 的 全 局 变量 ， 如 图 22-3 所 示 。 


TCP/IP A 4&2: 实现 


全 局 变量 


Struct inpb | 
vds last. inpcb | Struct inpcb * 
Struct sockaddr, in 
Struct udpstat 


udpcksum 

udp, in 
udpstat 
Eos] 
Eos] 


23.2.2 统计 量 


us m 00] 


u m 00] 


UDP PCB 表 的 表 头 


指向 最 近 收 到 的 数据 报 的 指针 : 


P -个 ”高 速 缓 在 


用 于 计算 和 验证 UDP 检验 和 的 标志 
在 输入 时 存放 发 送 方 的 下 地 址 
UDP 统计 (图 23-4) 


插口 
插口 





接收 缓存 的 默认 大 小 ，41 600 字 节 
发 送 缓存 的 默认 大 小 ，9 216 字 节 


图 23-3 本 章 中 引入 的 全 局 变量 


全 局 结构 udpstat 维 护 多 种 UDP 统 计量 ， 如 图 23-4 所 示 。 讨 论 代码 的 过 程 中 ， 我 们 会 看 


到 何 时 增加 这 些 计 数 器 的 值 。 


udps_badlen 
udps, badsum 


udps, fullsock 


udps hdrops 


udps ipackets 


udps noport 


udps, noportbcast 


udps, opackets 


udps, pcbcachemiss 


netstat -s 输出 


18,575,142 datagrams received 
0 with incomplete header 
18 with bad data length field 
58 with bad checksum 
84,079 dropped due to no socket 
446 broadcast/multicast datagrams dropped due to no Socket 
5,356 dropped due to full socket buffers 
18,485,185 delivered 
18,676,277 datagrams output 













提交 的 UDP 数据 报 的 个 数 (输出 的 倒数 第 
去 图 23-5 中 它 前 面 的 6 个 变量 。 





SNMP 使 用 的 


收 到 所 有 数据 长 度 大 十 分 组 的 数据 报 个 数 

收 到 有 检验 和 错误 的 数据 报 个 数 

收 到 由 于 输入 插口 已 满 而 没有 提交 的 数据 报 个 数 
收 到 分 组 小 于 首部 的 数据 报 个 数 

所 有 收 到 的 数据 报 个 数 

收 到 在 目的 端口 没有 进程 的 数据 报 个 数 

收 人 到 在 目的 端口 没有 进程 的 广播 / 多 播 数据 报 个 数 
全 部 输出 数据 报 的 个 数 

收 到 的 丢失 pcb 高 速 绥 存 的 输入 数据 报 个 数 


图 23-4 在 udpstat 结 构 中 维持 的 UDP 统 计 
图 23-5 显 示 了 执行 hetstat -s 后 输出 的 统计 信息 。 


— 4 


一 们 


udps, ipackets 
udps, hdrops 
udps, badlen 
udps, badsum 
udps, noport 
udps. noportbcast 
udps, fullsock 


QUE X) 
udps, opackets 





























[23-5 UDP 统计 样本 


) 是 收 到 的 数据 报 总 数 (udps_ipackets) 减 
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23.2.3 SNMP 变 量 


图 23-6 显 示 了 UDP 组 中 的 四 个 简单 SNMP 变 量 ， 这 四 个 变量 在 实现 该 变量 的 udpstat 结 
构 中 计数 。 

图 23-7 显 示 了 UDP 监听 器 表 , 称 为 udpTable。SNMP 为 这 个 表 返 回 的 值 是 取 自 UDP PCB, 
而 不 是 udpstat 结 构 。 


udpInDatagrams udps_ipackets 收 到 的 所 有 提交 给 进程 的 数据 报 个 数 
udpInErrors udps hdrops + Mic 8 PA) Hg FP e Ds IIS STE SE SUD P S He A R, 
udps  badsum + 这 些 原 因 中 不 包括 存 日 的 端口 没有 应 用 程序 的 原因 ( 例 


udps_badlen 如 ，UDP 检 验 和 差错 ) 


udpNoPorts udps._noport + 收 到 的 所 有 目的 端口 没有 应 用 进程 的 数据 报 
udps_noportbcast 


| wápoutbatagrams | | wápoutbatagrams | | udps.opackets | opackets 发 送 的 数据 报 的 个 数 


图 23-6 E 的 简单 SNMP 变 量 





UDP 监 听 器 表 ， 索 3|=<udpLocalAddress>.<udpLocalPort> 


SNMP% $ PCB 变 量 


udpLocalAddress inp, laddr 这 个 监听 器 的 本 地 IP 
udpLocalPort inp lport | 这 个 监听 器 的 本 地 端口 号 





图 23-7 UDP 监听 器 表 : udpTable 


23.3 UDP 的 protosw 结 构 
图 23-8 显 示 了 UDP 的 协议 交换 入 口 


pr type SOCK, DGRAM UDP 提供 数据 报 分 组 服务 
pr,domain &inetdomain UDP 是 Internet 域 的 一 部 分 
pr. protocol IPPROTO UDP(17) 出 现在 下 首部 的 1p_p 字 有 段 
pr_flags PR ATOMICIPR ADDR | 插口 层 标志 ， 协 议 处 理 没 有 使 用 
pr. input Udp, input 从 IP 层 接收 报 文 

pr. output 0 UDP 没 有 使 用 

pr ctlinput udp ctlinput ICMP 差 错 的 控制 输入 函数 
pr. ctloutput ip ctloutput 响应 来 自 进程 的 管理 请 求 
pr usrreq udp usrreq 响应 来 自 进程 的 通信 请 求 
pr init udp init 初始 化 UDP 

pr fasttimo UDP 没有 使 用 

pr slowtimo UDP 没有 使 用 

pr_drain UDP 没 有 使 用 

pr sysctl udp. sysctl Xisysctl (8) 系 统 调用 





图 23-8 UDP 的 protosw 结 构 


本 章 我 们 描述 五 个 以 udp_ 开 头 的 函数 。 另 外 我 们 还 要 介绍 第 6 个 函数 LGp_output， 它 


608 


TCP/IP ŽRE X2: 实现 


不 在 协议 交换 入 口 ， 但 当 输出 一 个 UDP 数据 报时 ，udp_usrreq 会 调用 它 。 


23.4 


UDP 的 首部 


UDP 首部 定义 成 一 个 udaphdr 结 构 。 图 23-9 是 C 结 构 ， 图 23-10 是 UDP 首部 的 图 。 


39 
40 
41 
42 
43 
44 


struct udphdr ( udp.h 
u short uh, sport; /* source port */ 
u short uh, dport; /* destination port */ 
short uh, ulen; ， /* udp length */ 
u.short uh sum; /* udp checksum */ 
) 
udp.h 


图 23-9 udphdr 结 构 


15 16 31 


uh, sport uh, dport 
16 位 源 端口 号 16 位 目的 端 只 号 





uh ulen uh, sum 


16 位 UDP 长 度 16 位 UDP 检验 和 


数据 (如 果 有 ) 








图 23-10 UDP 首部 和 可 选 数据 


在 源 代 码 中 ， 通 常 把 UDP 首部 作为 一 个 紧 跟着 UDP 首部 的 IP 首 部 来 引用 。 这 就 是 
udp_input 如 何 处 理 收 到 的 IP 数 据 报 ， 以 及 udp_output 如 何 构 造 外 出 的 IP 数 据 报 。 这 种 联 
合 的 IP/UDP 首 部 是 一 个 udpiphdr 结 构 ， 如 图 23-11 所 示 。 





- udp  var.h 
38 struct udpiphdr { 
39 struct ipovly ui.i: /* overlaid ip structure */ 
40 struct udphdr ui u; /* udp header */ 
41 ); 
42 #Gefine ui,.next ui  i.ih, next 
43 #define ui, prev ui,i.ih prev 
44 #define ui X1 ui i.ih x1 
45 #define ui pr ui i.ih pr 
46 #define ui len ui i.ih len 
47 $define ui src ui i.ih, src 
48 #define ui dst ui i.ih,dst 
49 #define ui,.sport ui, u.uh sport 
50 &define ui, dport ui u.uh,dport 
5] &$define ui, ulen ui u.uh ulen 
52 $define ui, sum ui. u.uh sum 

udp var.h 
图 23-11 uapiphdr 结 构 : 联合 的 IP/UDP 首 部 

20 字 节 的 IP 首 部 定义 成 一 个 ijpovly 结 构 ， 如 图 23-12 所 示 。 


不 幸 的 是 ， 这 个 结构 并 不 是 一 个 真正 的 如 图 8-8 所 示 的 IP 首 部 。 大 小 相同 (20 字 节 )， 但 字 
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段 不 同 。 我 们 将 在 23.6 节 讲 UDP 检 验 和 的 计算 时 回来 讨论 这 个 不 同 之 处 。 


- ip var.h 
38 struct ipovly ( 、 
39 caddr t ih, next, ih prev; /* for protocol sequence q's */ 
40 u_char ih x1; /* (unused) */ 
41 u char ih pr; /* protocol */ 
42 Short ih len; : /* protocol length */ 
43 struct in, addr ih src; /* source internet address */ 
44 struct in addr ih, dst; /* destination internet address */ 
45 ) . 

ip var.h 


图 23-12 ipovly 结 构 


23.5 udp initi 


domaininit 函 数 在 系统 初始 化 时 调用 UDP 的 初始 化 函数 (u9p_init， 图 23-13)。 

这 个 函数 所 做 的 唯一 的 工作 是 把 头 部 PCB(uqb) 的 向 前 和 向 后 指针 指向 它 自己 。 这 是 一 个 
双向 链表 。 

udb PCB 的 其 他 部 分 都 被 初始 化 成 0， 尽 管 在 这 个 头 部 PCB 中 唯一 使 用 的 字段 是 
inp_l1port， 它 是 要 分 配 的 下 -一 个 UDP 临时 端口 号 。 在 解 习题 22.4 时 ， 我 们 提 到 ， 因 为 这 个 
本 地 端口 号 被 初始 化 成 0， 所 以 第 一 个 临时 端口 号 将 是 1024。 


udp usrreq.c 
50 void p.-Msrreq 
51 udp init() 
52 { 
53 udb.inp next - udb.inp prev - &udb; 
54 ) 

udp usrreq.c 


图 23-13 udp initdÁÀ € 


23.6 udp outputif Zi 


当 应 用 程序 调用 以 下 五 个 写 函数 中 的 任意 一 个 时 ,发 生 UDP 输出 。 这 五 个 函数 是 : send, 
sendto, sendmsg, writeZwritev. WRO EH: ERU, MTER WHEA PR 
尽管 用 sendto 或 sendmsg 不 能 指定 目的 地 址 。 如 果 插 口 没有 连接 上 ， 则 只 能 调用 sendto 和 
sendmsg， 并 且 必 须 指定 一 个 目的 地 址 。 图 23-14 总 结 了 这 五 个 函数 ， 它 们 在 终止 时 ， 都 调用 
udp_output， 该 函数 再 调用 ip_output。 

五 个 函数 终止 调用 sosend， 并 把 一 个 指向 msghdr 结 构 的 指针 作为 参数 传 给 该 流 数 。 要 
输出 的 数据 被 分 装 在 一 个 mbuf 链 上 ，sosend 把 一 个 可 选 的 目的 地 址 和 可 选 的 控制 信息 放 到 
mbuf 中 ， 并 发 布 PRU_SEND 请 求 。 

UDP 调用 函数 udap_output， 该 函数 的 第 一 部 分 如 图 23-15 所 示 。 四 个 参数 分 别 是 : inp, 
指向 插口 Internet PCB 的 指针 ; m， 指 向 输出 mbuf 链 的 指针 ; addr， 一 个 可 选 指针 ， 指 向 某 个 
mbuf， 存 放 分 装 在 一 个 sockaddr_in 结 构 中 的 目的 地 址 ; control, — "ftr, 指向 
一 个 mbuf， 其 中 存放 着 sendmsg 中 的 控制 信息 。 

1. 丢掉 可 选 控制 信息 
333-344 m_freem 委 弃 可 选 的 控制 信息 ， 不 产生 差错 。UDP 输 出 不 使 用 任何 控制 信息 。 
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注释 XXX 是 因为 忽略 控制 信息 且 不 产生 错误 。 其 他 协议 如 路 由 选择 域 和 TCP， 当 
进程 传递 控制 信息 时 ， 都 会 产生 一 个 错误 。 





把 数据 、 日 的 地 址 和 控制 
信息 放 到 mbuf 中 







PRU_SEND | 请 求 









udp ou tput 


放 到 接口 的 输出 队列 上 
图 23-14 五 个 写 国 数 如 何 终止 调用 udp_output 


2. 临时 连接 一 个 未 连接 上 的 插口 
. 345-359 如 果 调 用 方 为 UDP 数 据 报 指定 了 目的 地 址 (addr 非 空 )， 则 插口 是 由 
in_pcbconnect 临 时 连接 到 该 目的 地 址 的 ， 并 在 该 函数 的 最 后 被 断 连 。 在 连接 之 前 ， 要 作 
一 个 检测 ， 判 断 插口 是 否 已 经 连接 上 。 如 果 已 连接 上 ， 则 返回 错误 EISCONN。 这 就 是 为 什么 
sendto 在 已 连接 上 的 插口 上 指定 目的 地 址 时 ， 会 返回 错误 。 

在 临时 连接 插口 之 前 ，splnet 停 止 IP 的 输入 处 理 。 这 样 做 的 原因 是 因为 ， 临 时 连接 将 改 
变 插口 PCB 中 的 外 部 地 址 、 外 部 端口 以 及 本 地 地 址 。 如 果 在 临时 连接 该 PCB 的 过 程 中 处 理 某 
个 收 到 的 UDP 数据 报 ， 可 能 把 该 数据 报 提 交 给 错误 的 进程 。 把 处 理 器 设置 成 比 splnet 优 先 ， 
只 能 阻止 软件 中 断 引发 执行 IP 输 入 程序 (图 1-12)， 它 不 能 阻止 接口 层 接收 进入 的 分 组 ， 并 把 它 
们 放 到 IP 的 输入 队列 中 。 

[Partridge 和 Pink 1993] 注意 到 临时 连接 插口 的 这 个 操作 开销 很 大 ， 用 去 每 个 
UDP 传送 将 近 三 分 之 一 的 时 间 。 
在 临时 连接 之 前 ，PCB 的 本 地 地 址 被 保存 在 laddr 中 ， 因 为 如 果 它 是 通 配 地 址 ， 它 将 被 
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in_pcbconnect 在 调用 in_pcbbind 时 改变 。 
如 果 进 程 调用 了 connect， 则 应 用 于 上 且 的 地 址 的 同一 规则 也 将 适用 ， 因 为 两 种 情况 都 将 


调用 in_pcbconnect。 





333 int 


udp_usrreq.c 


334 udp_output (inp, m, addr, control) 
335 struct inpcb *inp; 

336 struct mbuf *m; 

337 struct mbuf *addr, *control; 


338 ( 
339 
340 
341 
342 


343 
344 


345 
346 
347 
348 
349 
350 
351 
352 
353 
354 
355 
356 
357 
358 
359 
360 
361 
362 
363 
364 
365 
366 
367 
368 
369 
370 
371 
372 
373 


409 
410 
411 
412 ] 





struct udpiphdr *ui; 


int len = m-»m pkthdr.len; 
struct in addr laddr; 
int s, error = 0; 


if (control) 
m freem(control); /* XXX */ 


if (addr) ( 
laddr - inp-»inp, laddr; 
if (inp-»inp.faddr.s addr !- INADDR ANY) ( 
error - EISCONN; 
goto release; 
) 
/* 
* Must block input while temporarily connected. 
*/ 
S = Splnet(); 
error = in, pcbconnect(inp, addr); 
if (error) ( 
splx(s); 
goto release; 
} 
) else ( 
if (inp-»inp faddr.s, addr == INADDR, ANY) ( 
error - ENOTCONN; 
goto release; 


} 
/* 
* Calculate data length and get an mbuf for UDP and IP headers. 
*/ 
M PREPEND(m, sizeof(struct udpiphdr), M DONTWAIT); 
if (m == 0) ( 
error' = ENOBUFS; 
goto release; 


/* remainder of function shown in Figure 23.20 */ 


release: 


m freem(m); 
return (error); 


udp, usrreq.c 


图 23-15 udp outputtR 2: 痢 时 连接 一 个 未 连接 上 的 插口 


612 TCP/IP:E&£ 4&2: 实现 


360-364 如 果 进 程 设 有 指定 目的 地 址 ， 并 且 播 口 设 有 连接 上 ， 则 返回 ENOTCONN。 

3. 在 前 面 加 上 JP/UDP 首 部 
366-373 M_PREPEND 在 数据 的 前 面 为 IP 和 UDP 首部 分 配 空间 。 图 1-8 是 一 种 情况 ， 假 定 
mbuf 链 上 的 第 一 个 mbuf 已 经 没有 空间 存放 首部 的 28 个 字 节 。 习 题 23.1 详 细 给 出 了 其 他 情况 。 
需要 指定 标志 位 M_DONTWRAIT， 因 为 如 果 揪 口 是 临 时 连接 的 ， 则 IP 处 理 被 阻塞 ， 所 以 
M_PREPEND 也 应 被 阻塞 。 


早期 的 伯克利 版 本 不 正确 地 指定 了 这 里 的 M_NWRATIT。 


23.6.1 在 前 面 加 上 1IP/UDP 首 部 和 mbuf 往 


在 MX_PREPEND 宏 和 mbuf 徐 之 间 有 一 个 微妙 的 交互 。 如 果 sosenq 把 用 户 数据 放 到 一 个 钞 
中 ， 则 该 簇 的 最 前 面 的 56 个 字 节 (max_hdr， 图 7-17) 没 有 使 用 ， 这 就 为 以 太 网 、IP 和 UDP 首 
部 提供 了 空间 。 训 免 M_PREPEND 仅 仅 为 存放 这 些 首部 而 另外 再 分 配 一 个 mbuf。M_PREPEND 
调用 M_LEADINGSPACE 来 计算 在 mbuf 的 前 面 有 多 大 的 空间 可 以 使 用 : 


#define M_LEADINGSPACE (m) V 


((m)-»m flags & M EXT ? /* (m)->m data - (m)-»m ext buf */ 0 : V 
(m)-»m flags & M PKTHDR ? (m)-»m data - (m)-»m pktdat : ^ 
(m)-»m data - (m)-»m dat) 


IE HS Hb LEE UH fi Ri ARAARA ERT, M RREAN, AEAEE IRIO. 
ZEHRA, Mrb SEI, M PREPENDJÉ2U ERULE BRA BSO— ^ 3 mbuf, ifi 
不 再 使 用 sosend 分 配 的 用 于 存放 首部 的 空间 。 

M_LEADINGSPRACE 中 注释 掉 正 确 代码 的 原因 是 因为 该 狼 可 能 被 共享 (2.9 节 )， 而 

有 县， 如果 它 被 共享 ,使 用 旋 中 数据 报 前 面 的 空间 可 能 会 擦 掉 其 他 数据 。 

UDP 数 据 不 共享 族 ， 因 为 udp_output 不 保存 数据 的 备份 。 但 是 TCP 在 它 的 发 

送 缓 看 内 保 看 数据 备份 (等 待 对 该 数据 的 确认 )， 而 且 如 果 数 据 不 在 竹内 ， 则 说 明和 它 是 

共享 的 。 但 tcp_output 不 调用 M_LEADINGSPACE， 因 为 sosend 只 为 数据 报 协 议 

在 散 前 面 留 56 个 字 节 ， 所 以 ，tcp_output 总 是 调用 MGETHDR 为 协议 首部 分 配 一 个 


mbuf, 


23.6.2 UDP 检验 和 计算 和 伪 首 部 


在 讨论 uapb_output 的 后 一 部 分 之 前 ， 我 们 描述 一 下 UDP 如 何 填充 IP/UDP 首 部 的 某 些 字 
段 ， 如 何 计算 UDP 检 验 和 ， 以 及 如 何 传递 IP/UDP 首 部 及 数据 给 IP 输 出 的 。 这 些 工作 很 巧妙 地 
使 用 了 ipovly 结 构 。 

图 23-16 显 示 了 udp_output 在 由 m 指 向 的 mbuf 链 的 第 一 个 存储 器 上 构造 的 28 字 节 IP/UDP 
首部 。 没 有 阴影 的 字段 是 udp_output 填 充 的 ， 有 阴影 的 字段 是 ip_output 填 充 的 。 这 个 图 
显示 了 首部 在 线路 上 的 格式 。 

UDP 检验 和 的 计算 覆盖 了 三 个 区 域 : (1) 一 个 12 字 节 的 伪 首 部 ， 其 中 包含 IP 首 部 的 字段 ; 
Q)8 字 节 UDP 首 部 ， 和 (3)UDP 数 据 。 图 23-17 显 示 了 用 于 检验 和 计算 的 12 字 布 伪 首 部 ， 以 及 
UDP 首 部 。 用 于 计算 检验 和 的 UDP 首 部 等 价 于 出 现在 线路 上 的 UDP 首 部 (图 23-16)。 
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图 23-16 IP/UDP 首 部 : UDP 填充 没有 阴影 的 字段 ， 王 填充 有 阴影 的 字段 
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图 23-17 检验 和 计算 所 使 用 的 伪 首 部 和 UDP 首部 


在 计算 UDP 检验 和 时 使 用 以 下 三 个 事实 : (1 在 伪 首 部 (图 23-17) 中 的 第 三 个 32 bit 字 看 起 来 
与 IP 首 部 (图 23-16) 中 的 第 三 个 32 bit 字 类 似 : 两 个 8 bit 值 和 一 个 16 bit 值 。(2) 伪 首部 中 三 个 32 
bit 值 的 顺序 是 无 关 的 。 事实 上 , Internet 检 验 和 的 计算 不 依赖 于 所 使 用 的 16 bit 值 的 顺序 (8.7 节 )。 
(3) 在 检验 和 计算 中 另外 再 加 上 一 个 全 0 的 32 bit 字 没有 任何 影响 。 

udp_output 利 用 这 三 个 事实 ， 填 充 udpiphdr 结 构 (图 23-11) 的 字段 ， 如 图 23-18 所 示 。 
该 结构 包含 在 由 m 指 向 的 mbuf 链 的 第 一 个 mbuf 中 。 

在 20 字 节 IP 首 部 (5 个 成 员 ui_x1、ui_pr、ui_len、ui_src 和 ui_dst) 中 的 最 后 三 
个 32 bit 字 被 用 作 检 验 和 计算 的 伪 首 部 。IP 首 部 的 前 两 个 32 bit 字 (ui_next 和 ui_prev) 也 用 
在 检验 和 计算 中 ， 但 它们 被 初始 化 成 0， 所 以 不 影响 最 后 的 检验 和 。 

图 23-19 总 结 了 我 们 描述 的 操作 : 

1) 图 23-19 中 最 上 面 的 图 是 伪 首 部 的 协议 定义 ， 与 图 23-17 对 应 。 
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-o 15 — 16 
ui next 
ui prev 
ui. x1 ui pr 
8 位 汪 存 上 时间 8 位 协议 
ui. src 
32 位 源 卫 地 址 
ui, dst 
3205 HIISIPHb AE 
ui sport 
lefrikism N 
ui .ulen 
16 位 UDP 长 度 






ui, sum 


16 位 UDP 检验 和 





图 23-18 uap_output 填 充 的 udapiphdr 
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图 23-19 填充 IP/UDP 首 部 和 计算 UDP 检验 和 的 操作 


2) 中 间 的 图 是 源 代码 使 用 的 udpiphar 结 构 ， 与 图 23-11 对 应 (为 图 的 可 读 性 ， 省 略 了 所 有 
成 员 的 前 缀 ui_)。 这 是 udap_output 在 mbuf 链 上 的 第 一 个 mbuf 中 构造 的 结构 ， 然 后 被 用 于 计 
算 UDP 检 验 和 。 

3) 下 面 的 图 是 出 现在 线路 上 的 IP/UDP 首 部 ， 与 图 23-16 对 应 。 上 面 有 箭头 的 7 个 字段 是 
udp_output 在 检验 和 计算 之 前 填充 的 。 上 面 有 星 号 的 3 个 字段 是 udp_output 在 检验 和 计 
算 之 后 填充 的 。 共 他 6 个 有 阴影 的 字段 是 ip_output 填 充 的 。 

图 23-20 是 udap_output 国 数 的 后 半 部 分 。 

1. 为 检验 和 计算 准备 伪 首 部 
374-387 ”把 udpiphdr 结 构 (图 23-18) 的 所 有 成 员 设置 成 它们 相应 的 值 。PCB 中 的 本 地 和 外 
部 插口 已 经 是 网 络 字 节 序 ， 但 必须 把 UDP 的 长 度 转 换 成 网 络 字 节 序 。UDP 的 长 度 是 数据 报 的 
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字 节 数 (len， 可 以 是 0) 加 上 UDP 首部 的 大 小 (8)。UDP 长 度 字段 在 UDP 检验 和 计算 中 出 现 了 
两 次 : ui_len 和 ui_ulen。 有 一 个 是 宛 余 的 。 


374 7 udp usrreg.c 
375 * Fill in mbuf with extended UDP header 
376 * and addresses and length put into network format. 
377 */ 
378 ui = mtodí(m, struct udpiphdr *); 
379 ui-»ui next = ui-»ui prev = Q; 
380 ui-»ui, x1l = 0; 
381 ui-»ui. pr = IPPROTO UDP; 
382 ui-»ui len = htons((u short) len + sizeof(struct udphdr)); 
383 ui-»ui src = inp-»inp laddr; 
384 ui-»ui. dst = inp--»inp, faddr; 
385 ui-»ui sport = inp-»inp lport; 
386 ui-»ui dport = inp-»inp, fport; 
387 ui-»ui ulen = ui-»ui, len; 
388 .ı /* 
389 * Stuff checksum and output datagram. 
390 */ 
391 ui-»ui sum = 0; 
392 if (udpcksum) ( 
393 if ((ui-»ui, sum = in cksum(m, sizeof(struct udpiphdr) + len)) == 0) 
394 ui-»-ui, sum = Oxffff; i 
395 } 
396 ((struct ip *) ui)-»ip len = sizeof(struct udpiphdr) + len; 
397 ((struct ip *) ui)-»ip ttl = inp-»inp ip.ip. ttl; /* XXX */ 
398 ((struct ip *) ui)-»ip tos = inp-»inp ip.ip. tos; /* XXX */ 
399 udpstat.udps opackets-«*; 
400 error - ip output(m, inp-»inp options, &inp-»inp route, 
401 . inp-»inp socket-»so options & (SO, DONTROUTE | SO BROADCAST), 
402 inp-»inp moptions); 
403 if (addr) ( 
404 in, pcbdisconnect (inp); 
405 inp-»inp laddr = laddr; 
406 splx(s); 
407 } 
408 return (error); 
udp usrreq.c 
图 23-20 udp_output 函 数 : 填充 首部 、 计 算 检 验 和 并 传 给 IP 
2. 计算 检验 和 


388-395 ”计算 检验 和 时 ， 首 先 把 它 设 成 0， 然 后 调用 in_cksum。 如 果 UDP 检 验 和 是 禁止 的 
(一 个 坏 的 想法 一 一 见 卷 1 的 11.3 节 )， 则 检验 和 的 结果 是 0。 如 果 计 算 的 检验 和 是 0， 则 在 首部 
中 保存 16 个 1， 而 不 是 0( 在 求 补 运算 中 ， 全 1 和 全 0 都 是 0)。 这 样 ， 接 收 方 就 可 以 区 分 设 有 检验 
和 的 UDP 分 组 (检验 和 字段 为 0 和 有 检验 和 的 UDP 分 组 了 ， 后 者 的 检验 和 值 为 0016 位 的 检验 和 
是 16 个 1)。 
变量 udpcksum( 图 23-3) 通 常 默认 值 为 1， 使 能 UDP 检验 和 。 对 内 核 的 编译 可 对 

4.2BSD 养 容 ， 把 udapcksum 初 始 化 为 0。 

3. 填充 UDP 长 度 、TTL 和 TOS 
396-398 指针 ui 指向 一 个 指向 某 个 标准 卫 首 部 的 指针 (ip)，UDP 设 置 卫 首部 内 的 三 个 字段 。 
IP 长 度 字 段 等 于 UDP 数据 报 中 数据 的 个 数 加 上 IP/UDP 首 部 大 小 28。 注 意 ，IP 首 部 的 这 个 字段 
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以 主机 字 节 序 保 存 ， 不 象 首部 其 他 多 字 节 字段 ， 是 以 网 络 字 节 序 保 存 的 。ip_output 在 发 送 
之 前 ， 把 它 转换 成 网 络 字 节 序 。 

把 下 首部 里 的 TTL 和 TOS 字 段 的 值 设 成 播 只 PCB 中 的 值 。 在 创建 插 只 时 ，UDP 设 置 这 些 默 
认 值 ， 进 程 可 用 setsockopt 改 变 它 们 。 因 为 这 三 个 字段 一 一 IP 长 度 、TTL 和 TOS 不 是 
伪 首 部 的 内 容 ，UDP 检 验 和 计算 时 也 没有 用 到 它们 ， 所 以 ， 在 计算 检验 和 之 后 ， 调 用 
ip_output 之 前 ， 必 须 设置 它们 。 

4. 发 送 数 据 报 
400-402 ip_output 发 送 数据 报 。 第 二 个 参数 inp_options， 是 进程 可 用 setscockopt 
设置 的 IP 选 项 。 这 些 IP 选 项 是 jp_output 放 置 到 IP 首 部 中 的 。 第 三 个 参数 是 一 个 指向 高 速 缓 
存在 PCB 中 的 路 由 的 指针 ， 第 四 个 参数 是 插口 选项 。 传 给 ip_output 的 唯一 插口 选项 是 
so_DONTROUTE( 旁 路 选 路 表 ) 和 SO_BROADCAST( 允 许 广 播 )。 最 后 一 个 参数 是 一 个 指向 该 插 
口 的 多 播 选项 的 指针 。 

5. 断 连 临时 连接 的 插口 
403-407 如果 播 口 是 临 时 连接 上 的 ， 则 in_pcbdaisconnect 断 连 插口 ， 本 地 耳 地 址 在 
PCB 中 恢复 ， 恢 复 中 断 级 别 到 保存 的 值 。 


23.7 _ udp_input 函 数 


进程 调用 五 个 写 函 数 之 一 来 驱动 UDP 输出 。 图 23-14 显 示 的 函数 都 作为 系统 调用 的 组 成 部 
分 被 直接 调用 。 另 一 方面 ， 当 IP 在 它 的 协议 字段 指定 为 UDP 的 输入 队列 上 收 到 一 个 IP 数 据 报 
时 ， 才 发 生 UDP 的 输入 。IP 通 过 协议 交换 表 ( 图 8-15) 中 的 pr_input 函 数 调用 函数 
udp_input。 因 为 IP 的 输入 是 在 软件 中 断 级 ， 所 以 uap_input 也 在 这 一 级 上 执行 。 
uap_input 的 目标 是 把 UDP 数据 报 放置 到 合适 的 插口 的 缓存 内 ， 唤 醒 该 插口 上 因 输入 中 塞 的 
所 有 进程 。 

我 们 对 udp_input 国 数 的 讨论 分 三 个 部 分 : 

1) UDP 对 收 到 的 数据 报 完成 一 般 性 的 确认 ; 

2) 处 理 目的 地 是 单 播 地址 的 UDP 数据 报 : 找到 合适 的 PCB， 把 数据 报 放 到 插口 的 缓存 内 ， 

3) 处 理 目的 地 是 广播 或 多 播 地 址 的 UDP 数据 报 : 必须 把 数据 报 提交 给 多 个 插口 。 

最 后 一 步 是 新 的 ， 是 为 了 在 Net/3 中 支持 多 播 ， 但 占用 了 大 约 三 分 之 一 的 代码 。 


23.7.1 对 收 到 的 UDP 数据 报 的 一 般 确认 


图 23-21 是 UDP 输入 的 第 一 部 分 。 
55-65 udp_input 的 两 个 参数 是 : m, 一 个 指向 包含 了 该 IP 数 据 报 的 mbuf 链 的 指针 ; 
iphlen，IP 首 部 的 长 度 ( 包 括 可 能 的 IP 选 项 )。 

1. 丢弃 IP 选 项 
67-76 ”如 果 有 IP 选项 ， 则 ip_stripoptions 丢 弃 它 们 。 正 如 注释 中 表明 的 ，UDP 应 该 保 
存 理 选项 的 一 个 备份 ， 使 接收 进程 可 以 通过 IP_RECVOPTS 揪 口 选 项 访问 到 它们 ， 但 这 个 还 没 
有 实现 。 
77-88 如 果 mbaf 链 上 的 第 一 个 mbuf 小 于 28 字 节 (IP 首 部 加 上 UDP 首部 的 大 小 )， 则 
m_pullup 重 新 安排 mbut 链 ， 使 至 少 有 28 个 字 节 连 续 地 存放 在 第 一 个 mbuf 中 。 
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void 

udp input(m, iphlen) 

struct mbuf *m; 

int iphlen; 

{ 
struct ip *ip; 
struct udphdr *uh; 
struct inpcb *inp; 
struct mbuf *opts - 0; 
int len; 
struct ip save ip; 


udpstat.udps ipackets-4-*; 
/* 
* Strip IP options, 
* make available to user, 


if any; 
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should skip this, 
and use on returned packets, 


* but we don't yet have a way to check the checksum 


* with options still present. 

*/ 

if (iphlen » sizeof(struct ip)) 
ip stripoptions (m, 
iphlen - sizeof(struct ip); 

} 

/* 


( 


(struct mbuf *) 0); 


* Get IP and UDP header together in first mbuf. 


*/ 


ip = mtod(m, struct ip *); 


if (m-»m len < iphlen + sizeof(struct udphdr)) ( 


if ((m = m pullup(m, iphlen 
udpstat.udps hdrops-s*; 
return; 

) 

ip - mtod(m, struct ip *); 


) 
uh - 


/* 


(struct udphdr *) 


( (caddr. t) 


+ Sizeof (struct udphdr))) == 0) 


ip + iphlen); 


* Make mbuf data length reflect UDP length. 
* Tf not enough data to reflect UDP length, drop. 


*/ 


len = ntohs((u short) uh-»uh, ulen); 


if (ip-»ip len !- len) ( 
if (len » ip-»ip.len) ( 
udpstat.udps, badlen««*; 
goto bad; 
} 
m_adj(m, len - ip-»ip len); 
/* ip-»ip len - len; */ 
} 
/* 
* Save a, copy of the IP header 
* it for sending an ICMP error 


*/ 
save ip = *ip; 

/* 

* Checksum extended UDP header 
*/ 


if (udpcksum && uh-»uh, sum) ( 


in case we want to restore 
message in response. 


t 


and data. 
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((struct ipovly *) 
((struct ipovly *) 
((struct ipovly *) 
((struct ipovly *) 


ip)-»ih, next 
ip)-»ih prev 
ip)-»ih x1 = 0; 

ip)-»ih len = uh-»uh ulen; 


0; 
0; 


Cei U 


if (uh-»uh sum = in cksum(m, len + sizeof(struct ip))) ( 
udpstat.udps, badsum«-; 


m freem(m); 
return; 


验证 UDP 长 度 


udp usrreq.c 


图 23-21 (£3) 


333-344 与 UDP 数据 报 相关 的 岗 个 长 度 是 : IP 首 部 的 长 度 字段 (ip_1len) 和 UDP 首 部 的 长 度 
字段 (uh_ulen)。 前 面 讲 到 ，ipintr 在 调用 udp_input 之 前 ， 从 ip_len 中 抽取 出 IP 首 部 
的 长 度 (图 10-11)。 比 较 这 两 个 长 度 ， 可 能 有 三 种 可 能 性 : 

1) ip_len 等 于 uh_ulen。 这 是 通常 情况 。 

2) ip_len 大 于 uh_ulen。IP 首 部 太 大 ， 如 图 23-22 所 示 。 代 码 相信 两 个 长 度 中 小 的 那个 
(UDP 首部 长 度 )，m_aqj 从 数据 报 的 最 后 移 走 多 余 的 数据 字 节 。m_adj 的 第 二 个 参数 是 负数 ， 
在 图 2-20 中 我 们 说 ， 从 mbuf 链 的 最 后 截断 数据 。 在 这 种 情况 下 ，UDP 的 长 度 字段 出 现 冲突 。 
如 果 是 这 样 ， 假 定 发 送 方 计算 了 UDP 的 检验 和 ， 则 不 和 久 检 验 和 会 检测 到 这 个 错误 ， 接 收 方 也 
会 验证 检验 和 ， 从 而 丢弃 该 数据 报 。IP 长 度 字段 必须 正确 ， 因 为 IP 根 据 接口 上 收 到 的 数据 量 
验证 它 ， 而 强制 的 下 首部 检验 和 禾 盖 了 IP 首 部 的 长 度 字段 。 


一 一 一 一 一 一 一 IP 数 据 报 一 一 一 一 一 一 一 ”| 





IP 长 度 ip_len 加 上 IP 首 部 长 度 


图 23-22 UDP 长 度 太 小 


3) ip_len 小 于 uh_ulen。 当 UDP 首部 的 长 度 给 定时 ， IP 数 据 报 比 可 能 的 小 。 图 23-23 显 
示 了 这 种 情况 。 这 说 明 数 据 报 有 错误 ， 必 须 丢 弃 ， 没 有 其 他 的 选择 : 如 果 UDP 长 度 字段 被 破 
坏 ， 用 UDP 检 验 和 是 无 法 检测 到 的 。 需 要 用 正确 的 UDP 长 度 来 计算 UDP 检 验 和 。 


内 没有 长 度 字段 


一 一 一 一 一 一 


IP 数 据 报 。 一 一 一 一 一 一 一 一 各 | 


-一 ~ 一 3 
222-4 
UDP 长 度 uh_ulen | 

IP 长 度 ip_len 加 上 IP 首 部 长 度 


图 23-23 UDP 长 度 太 大 


正如 我 们 提 到 的 ，UDP 长 度 是 宛 余 的 。 在 第 28 章 中 我 们 将 看 到 ，TCP 自 己 的 首部 





它 用 卫 长 度 字 段 减 去 了 P 和 TCP 首 部 的 长 度 ， 以 此 确定 数据 报 内 数 
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据 的 数量 。 为 什么 存在 UDP 长 度 字 段 呢 ? 可 能 是 为 了 加 上 少量 的 差错 检测 ， 因 为 
UDP 检验 和 是 可 选 的 。 
3. 保存 IP 首 部 的 备份 ， 验 证 UDP 检验 和 
102-106 ”udp.input 在 验证 检验 和 之 前 保存 IP 首 部 的 备份 ， 因 为 检验 和 计算 会 擦 去 原始 IP 
首部 的 一 些 字段 。 
110 只 有 当 的 UDP 检验 和 (udpcksum 是 内 核 允 许 的 ， 并 且 发 送 方 也 计算 了 UDP 检验 和 ( 收 到 
的 检验 和 不 为 0) 时 ， 才 验证 检验 和 。 
这 个 检测 是 不 正确 的 。 如 果 发 送 方 计算 了 一 个 检验 和 ， 就 应 该 验证 它 ， 不 管 外 
出 的 检验 和 是 否 被 计算 。 变 量 udpcksum 应 该 只 指定 是 否 计算 外 出 的 检验 和 。 不 过 
的 是 ， 许 多 厂商 都 复制 了 这 个 检测 ， 尽 管 厂 商 已 经 改变 它们 产品 的 内 核 ， 却 默认 地 
允许 UDP 检 验 和 。 
111-120 在 计算 检验 和 之 前 ，IP 首 部 作为 ipov1y 结 构 ( 图 23-18) 引 用 ， 所 有 字段 的 初始 化 
都 是 udap_output 在 计算 UDP 检验 和 (上 一 节 ) 时 初始 化 的 。 
此 时 ， 如 果 数 据 报 的 目的 地 是 一 个 广播 或 多 播 下 地 址 ， 将 执行 特别 的 代码 。 我 们 把 这 段 
代码 推迟 到 本 节 最 后 。 


23.7.2 分 用 单 播 数据 报 
假定 数据 报 的 目的 地 是 一 个 单 播 地 址 ， 图 23-24 显 示 了 执行 的 代码 。 
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/* demultiplex broadcast & multicast datagrams (Figure 23.26) */ 


206 /* 

207 * Locate pcb for unicast datagram. 

208 */ 

209 inp - udp last, inpcb; 

210 if (inp-»inp lport !- uh-»uh dport || 

211 inp-»inp fport !- uh->uh sport || 

212 inp-»inp faddr.s addr !- ip-»ip src.s addr || 

213 inp-»inp laddr.s, addr !- ip-»ip dst.s addr) ( 

214 inp = in pcblookup(&udb, ip-»ip src, uh-»uh, sport, 
215 ip-»ip.dst, uh-»uh dport, INPLOOKUP WILDCARD); 
216 if (inp) 

217 udp last inpcb - inp; 

218 udpstat.udpps, pcbcachemiss-«-*; 

219 } 

220 if {inp == 0) { 

221 udpstat.udps noport4-*; 

222 if (m-»m flags & (M BCAST | M MCAST)) ( 

223 udpstat.udps,noportbcast-«*; 

224 goto bad; 

225 ) 

226 *ip = save ip; 

227 ip-»ip len += iphlen; 

228 icmp error(m, ICMP UNREACH, ICMP UNREACH, PORT, 0, 0); 
229 return; 

230 ) 
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图 23-24 udp inputHiÉE 分 用 单 播 数 据 报 
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1. 检查 “向 后 一 个 ”高 速 缓存 

206-209 UDP 维护 一 个 指针 ， 访 指针 指向 最 后 在 其 上 接收 数据 报 的 Internet PCB, 
udp_last_inpcb。 在 调用 in_pcblookup 之 前 ， 可 能 必须 搜索 UDP 表 上 的 PCB， 把 最 近 
一 次 接收 PCB 的 外 部 和 本 地 地 址 以 及 端口 号 和 收 到 数据 报 的 进行 比较 。 这 称 为 “向 后 一 个 ” 
高 速 缓存 (one-behind cache)[Partridge 和 Pink 1993]。 它 是 根据 这 样 一 个 假设 ， 即 收 到 的 数据 报 
极 有 可 能 要 发 往 上 一 个 数据 报 发 往 的 同一 端口 [Mogul 1991]。 这 个 高 速 缓存 技术 是 在 4.3BSD 
Tahoe 版 本 中 引入 的 。 
210-213 高速 缓存 的 PCB 和 收 到 数据 报 之 间 的 四 个 比较 的 次 序 是 故意 安排 的 。 如 果 PCB 不 
匹配 ， 则 应 尽快 结束 比较 。 最 大 的 可 能 性 是 目的 端口 号 不 相同 一 一 这 就 是 为 什么 第 一 个 检测 
它 。 不 匹配 的 可 能 性 最 小 的 是 本 地 地 址 ， 尤 其 在 只 有 一 个 接口 的 主机 ， 所 以 它 是 最 后 一 个 检 
测 。 

不 幸 的 是 ， 这 种 “向 后 一 个 ”高 速 缓存 技术 代码 ， 在 实际 中 毫 无 用 处 [Partridge 和 Pink 
1993]。 最 普通 的 UDP 服务 器 类 型 只 绑 定 它 的 知名 端口 ， 它 的 本 地 地 址 、 外 部 地 址 和 外 部 端口 
都 是 通 配 地 址 。 最 普通 的 UDP 客户 程序 类 型 并 不 连接 它 的 UDP 播 口 ; 它 用 sendto 指 定 每 个 
数据 报 的 目的 地 址 。 因 此 ， 大 多 数 时 间 PCB 内 的 inp_ladar、inp_fadaqr 和 inp_fport 都 
是 通 配 的 。 在 高 速 缓存 的 比较 中 ， 收 到 数据 报 的 这 四 个 值 永远 都 不 是 通 配 的 ， 这 意味 着 只 有 
当 指 定 PCB 的 四 个 本 地 和 外 部 值 是 非 通 配 时 ， 高 速 缓存 人 口 与 收 到 数据 报 的 比较 才 可 能 相等 。 
这 种 情况 只 在 连接 上 的 UDP 插口 上 发 生 。. 

在 系统 bsdi 上 ,udpps_pcbcachemiss 计 数 器 是 41 253, udps ipackets 
计数 器 是 42 485。 小 于 3% 4 Ar. 
netstat -Ss 命 令 打 印 出 udpstat 结 构 ( 图 23-$) 的 大 多 数字 段 。 不 幸 的 是 ， 

Net3 版 本 ， 以 及 多 数 厂 家 的 版 本 都 不 打印 udapps_pcbcachemiss。 如 果 你 想 看 它 

们 的 值 ， 用 调试 器 检查 在 运行 的 内 核 中 的 变量 。 

2. 搜索 所 有 UDP 的 PCB 
214-218 假定 与 高 速 缓存 的 比较 失败 ， 则 in_pcblookup 寻 找 一 个 匹配 。 指 定 
INPLOOKUP_WILDCARD 标 志 ， 人 允许 通 配 匹 配 。 如 果 找 到 一 个 匹配 ， 则 把 指向 该 PCB 的 指针 
保存 在 udap_lLast_inpcb 中 ， 我 们 说 它 高 速 缓存 了 最 后 收 到 的 UDP 数据 报 的 PCB。 

3. 生成 ICMP 端 口 不 可 达 差 锚 
220-230 ”如果 设 找到 匹配 的 PCB，UDP 通常 产生 一 个 ICMP 端 口 不 可 达 差 错 。 首 先 检 测 收 
到 的 mbuf 链 的 m_flags， 看 看 该 数据 报 是 否 是 要 发 送 到 一 个 链 路 级 广播 或 多 播 地 址 。 有 可 能 
会 收 到 一 个 发 送 到 链 路 级 广播 或 多 播 地 址 的 IP 数 据 报 ， 具 有 单 播 地 址 ， 此 时 不 应 该 产生 ICMP 
端口 不 可 达 差 错 。 如 果 成 功 产生 ICMP 差 错 ， 则 把 IP 首 部 恢复 成 收 到 它 时 的 值 (save_ip)， 也 
把 IP 长 度 设置 成 它 原来 的 值 。 

链 路 级 广播 或 多 播 地 址 的 检测 是 宛 余 的 。icmp_error 也 做 这 个 检测 。 这 个 元 

余 检 测 的 唯一 好 处 是 ， 在 udps_noportbcast 计 数 器 之 外 ， 还 维护 了 

udps_noport 人 计数 器 。 

把 iphlen 改 回 ip_ len 是 一 个 错误 。icmp_error 也 会 做 这 项 工作 ， 使 得 

ICMP 差 错 返 回 的 IP 首 部 的 JP 长 度 字 段 是 20 字 节 ， 这 太 大 了 。 可 以 在 Traceroute 程 
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序 ( 卷 1 的 第 8 章 ) 中 加 上 几 行 新 程序 ， 在 最 终 到 达 目 的 主机 后 ， 打 印 出 TCMP 痛 口 不 可 
达 差 错 报 文中 的 这 个 字段 ， 可 以 测试 系统 是 否 有 这 个 错误 。 


图 23-25 是 处 理 单 播 数据 报 的 代码 ， 把 数据 报 提交 给 与 目的 PCB 对 应 的 播 口 。 


231 7 udp usrreq.c 
232 * Construct sockaddr format source address. 

233 * Stuff source address and datagram in user buffer. 

234 */ 

235 udp .in.sin port = uh-»uh sport; 

236 udp in.sin addr = ip-»ip src; 

237 if (inp-»inp flags & INP CONTROLOPTS) { 

238 struct mbuf **mp = &opts; 

239 if (inp-»inp, flags & INP RECVDSTADDR) ( 

240 *mp = udp saveopt((caddr t) & ip-»ip dst, 

241 sizeof {struct in addr), IP. RECVDSTADDR); 
242 if (*mp) 

243 mp - &(*mp)-»m next; 

244 ) 

245 #ifdef notyet 

246 /* IP options were tossed above */ 

247 if (inp-»inp flags & INP RECVOPTS) ( 

248 *mp = udp saveopt((caddr. t) opts deleted above, 

249 sizeofí(struct in addr), IP RECVOPTS); 
250 if (*mp) 

251 mp - &(*mp)-»m next; 

252 } 

253 /* ip srcroute doesn't do what we want here, need to fix */ 
254 if (inp-»inp flags & INP,. RECVRETOPTS) ( 

255 *mp = udp.saveopt((caddr t) ip srcroute(), 

256 sizeof (struct in addr), IP RECVRETOPTS); 
257 if (*mp) 

258 mp = &(*mp)-»m next; 

259 ) 

260 #endif 

261 ) 

262 iphlen += sizeof(struct udphdr); 

263 m-»m len -- iphlen; 

264 m-»m pkthdr.len -- iphlen; 

265 m-»m data += iphlen; 

266 if (sbappendaddr(&inp-»inp socket-»so rcv, (struct sockaddr *) &udp in, 
267 m, opts) == 0) { 

268 udpstat.udps, fullsock-es; 

269 goto bad; 

270 ) 

271 sorwakeup(inp-»inp, socket); 

272 return; 

273 bad: 

274 m freem(ím); 

275 if (opts) 

276 m freem(opts); 

727) udp, usrreg.c 





图 23-25 udp_input 函 数 : 把 单 播 数据 报 提交 给 插口 


4. 返回 源 站 IP 地 址 和 源 站 端口 
231-236 ” 收 到 的 IP 数 据 报 的 源 站 也 地 址 和 源 站 端口 被 保存 在 全 局 sockaddr_in 结 构 中 的 
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udp_in。 在 函数 的 后 面 ， 该 结构 作为 参数 传 给 了 sbappendaddr。 

采用 全 局 变量 保存 IP 地 址 和 端口 号 不 出 现 问 题 的 原因 是 ，udp_input 是 单线 程 的 。 当 
ipintr 调 用 它 时 ， 它 在 返回 之 前 完整 地 处 理 了 收 到 的 数据 报 。 而 且 ，sbappendadqar 还 把 
该 插口 结构 从 全 局 变量 复制 一 个 mbuf 中 。 

5.IP RECVDSTADDR4$ uit 
337-244 常数 INP_CONTROLOPTS 是 三 个 插口 选项 的 结合 ， 进 程 可 以 设置 这 三 个 插口 选项 ， 
通过 系统 调用 recvmsg 返 回 插口 的 控制 信息 (图 22-5)。IP_RECVDSTADDR 把 收 到 的 UPP 数 
据 报 中 的 目的 IP 地 址 作为 控制 信息 返回 。 函 数 udp_saveopt 分 配 一 个 MT_CONTROL 类 型 的 
mbuf， 并 把 4 字 节 的 目的 下 地 址 存放 在 该 缓存 中 。 我 们 在 23.8 节 中 介绍 这 个 函数 。 


该 桂 口 选项 与 4.3BSD Reno 一 起 出 现 ， 是 为 一 般 文 件 传 输 协议 TFTP 的 应 用 程序 
设计 的 ， 它 们 不 响应 发 给 广播 地 址 的 客户 程序 请 求 。 不 幸 的 是 ， 即 使 接收 应 用 程序 
使 用 这 个 选项 ， 也 很 难 确定 目的 IP 地 址 是 否 是 一 个 广播 地 址 (习题 23.6)。 

当 4.4BSD 中 加 上 了 多 播 功 能 后 ， 这 个 代码 只 对 目的 地 是 单 播 地 址 的 数据 报 有 效 。 

我 们 将 在 图 23-26 看 到 ， 对 发 给 多 播 地 址 的 广播 数据 报 还 没有 实现 这 个 选项 ， 根 本 无 

法 达到 该 选项 的 目的 。 

6. 未 实现 的 插口 选项 
245-260 这 段 代码 被 注释 掉 了 ， 因 为 它们 不 起 作用 。IP_RECVOPTS 揪 口 选 项 的 原意 是 把 
收 到 数据 报 的 瑟 选 项 作为 控制 信息 返回 ， 而 IP_RECVRETOPTS 揪 日 选项 返回 源 路 由 信息 。 三 
个 IP_RECV 播 口 选 项 对 mp 变量 的 操作 构造 了 一 个 最 多 有 三 个 mbuf 的 链表 ， 该 链表 由 
sbappendaddr 放 置 到 插口 的 缓存 。 图 23-25 显 示 的 代码 只 把 一 个 选项 作为 控制 信息 返回 ， 
所 以 指向 该 mbuf 的 m_next 总 是 一 个 空 指针 。 

7. 把 数据 加 到 插口 的 接收 队列 中 
262-272 此 时 ， 已 经 准备 好 把 收 到 的 数据 报 (m 指 向 的 mbuf 链 ) 以 及 一 个 表示 发 送 方 下 地 址 和 
端口 的 播 口 地 址 结构 (udp_in) 和 一 些 可 选 的 控制 信息 (opts 指 向 的 mbuf， 目 的 耳 地 址 ) 放 到 揪 
口 的 接收 队列 中 。 这 个 工作 由 sbappendaddqr 完 成 。 但 在 调用 这 个 函数 之 前 ， 要 修正 指针 和 
缓存 链 上 的 第 一 个 mbuf， 忽 上 略 掉 UDP 和 IP 首 部 。 返 回 之 前 ， 调 用 sorwakeup 唤 醒 插 口 接收 队 
列 中 的 所 有 睡眠 进程 。 

8. 返回 差错 
273-276 ”如 果 在 UDP 输入 处 理 的 过 程 中 遇 到 错误 ，udp_input 会 跳 转 到 baq 标 号 语句 ， 
释放 所 有 包含 该 数据 报 以 及 控制 信息 (如 果 有 的 话 ) 的 mbuf 链 。 


23.7.3 分 用 多 播 和 广播 数据 报 


现在 返回 到 udp_input 处 理发 给 广播 或 多 播 耻 地址 数据 报 的 这 部 分 代码 。 如 图 23-26 所 
7e 
121-138 正如 注释 所 表明 的 ， 这 些 数 据 报 被 提交 给 匹配 的 所 有 插口 ， 而 不 仅仅 是 一 个 插口 。 
我 们 提 到 的 UDP 接 口 不 够 指 的 是 除非 连接 上 插口 ， 否 则 进程 没有 能 力 在 UDP 插 口上 接收 异步 
差错 (特别 是 ICMP 端 口 不 可 达 差 错 )。 我 们 22-11 市 讨论 这 个 问题 。 
139-145 源 站 的 IP 地 址 和 端口 号 被 保存 在 全 局 sockaddr.__in 结 构 的 udp_in 中 ， 传 给 
sbappendaddr。 更 新 mbuf 链 的 长 度 和 数据 指针 ， 名 略 UDP 和 了 首部 。 


121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 


139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 
165 
166 


167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 


#23% UDP: MP HERAB 623 


udp_usrreq.c 


if (IN MULTICAST (ntohl(ip-»ip dst.s addr)) |l 
in, broadcast(ip-»ip dst, m-»m pkthdr.rcvif)) ( 
struct socket *iast; 


/* 


* 


+ + t b+ + 


/* 


* 


*/ 


Deliver a multicast or broadcast datagram to *all* sockets 
for which the local and remote addresses and ports match 
those of the incoming datagram. This allows more than 

one process to receive multi/broadcasts on the same port. 
(This really ought to be done for unicast datagrams as 
well, but that would cause problems with existing 
applications that open both address-specific sockets and 

a wildcard socket listening to the same port -- they would 
end up receiving duplicates of every unicast datagram. 
Those applications open the multiple sockets to overcome an 
inadequacy of the UDP socket interface, but for backwards 
compatibility we avoid the problem here rather than 

fixing the interface. Maybe 4.5BSD will remedy this?) 


Construct sockaddr format source address. 


udp in.sin port - uh-»uh sport; 
udp,in.sin addr = ip-»ip src; 


和 mn 一 > 
m-> 
/* 
* 
* 
*/ 
las 
for 


m len -= sizeofí(struct udpiphdr):; 
m data += sizeof(struct udpiphdr); 


Locate pcb(s) for datagram. 
(Algorithm copied from raw intr().) 


t = NULL; 
(inp = udb.inp next; inp !- &udb; inp = inp-»inp next) ( 
if (inp-»inp lport !- uh-»uh,dport) 
continue; 
if (inp-»inp laddr.s, addr != INADDR, ANY) ( 
if (inp-»inp laddr.s addr !- 
ip-»ip dst.s,addr) 
continue; 
) 


if (inp-»inp, faddr.s addr !- INADDR, ANY) { 
if (inp-»inp faddr.s addr !- 
ip-»ip.src.s, addr || 
inp-»inp fport t= uh-»uh, sport) 
continue; 
) 
if (last !- NULL) ( 
Struct mbuf *n; 


if (tn = m copy(m, 0, M COPYALL)) !- NULL) ( 
if (sbappendaddr(&last-»so rcv, 
(struct sockaddr *) &udp in, 
n, (struct mbuf *) 0) == 0) ( 
m, freemín); 
udpstat.udps, fullsocks«*; 
) eise 
sorwakeup (last); 


) 
last = inp-»inp,. socket; 


[823-26 udp input: 分 用 广播 或 多 播 数据 报 
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178 /* 

179 * Don't look for additional matches if this one does 
180 * not have either the SO REUSEPORT or SO REUSEADDR 

181 * socket options set. This heuristic avoids searching 
182 * through all pcbs in the common case of a non-shared 
183 * port. It assumes that an application will never 

184 * clear these options after setting them. 

185 */ 

186 if ((1last-»so options & (SO REUSEPORT | SO REUSEADDR) == 0)) 
187 break; 

188 } 

189 if (last == NULL) ( 

190 /* 

191 * No matching pcb found; discard datagram. 

192 * (No need to send an ICMP Port Unreachable 

193 * for a broadcast or multicast datgram.) 

194 */ 

195 udpstat.udps, noportbcast**; 

196 goto bad; 

197 ) 

198 if (sbappendaddr(&last-»so rcv, (struct sockaddr *) &udp in, 
199 m, (struct mbuf *) 0) == 0) ( 

200 udpstat.udps fullsock«*; 

201 goto bad; 

202 ) 

203 sorwakeup(last); 

204 return; 

205 ) 


udp, usrreq.c 
图 23-26 (£3) 


146-164 大 的 for 循 环 扫描 每 个 UDP PCB， 寻 找 所 有 匹配 PCB 。 这 种 分 用 不 调用 
in_pcblookup， 因 为 它 只 返回 一 个 PCB， 而 广播 或 多 播 数 据 报 可 能 需要 提交 给 多 个 PCB . 
如 果 PCB 的 本 地 端口 和 收 到 数据 报 的 本 地 端口 不 匹配 ， 则 忽略 该 人 口 。 如 果 PCB 的 本 地 
端口 不 是 通 配 地 址 ， 则 把 它 和 目的 IP 地 址 比较 ， 如 果 不 相等 则 跳 过 该 入 口 。 如 果 PCB 内 的 外 
部 地 址 不 是 通 配 地 址 ， 就 把 它 和 源 站 IP 地 址 比较 ， 如 果 不 匹 配 ， 则 外 部 端 日 也 必须 和 源 站 端 
日 匹 配 。 最 后 一 个 检测 假定 ， 如 果 插 口 连 接 到 某 个 外 部 IP 地 址 ， 则 它 也 必须 连接 到 一 个 外 部 
端口 ， 反 之 亦 然 。 这 与 in_pcblookup 消 数 的 逻辑 相同 。 
165-177 如 果 这 不 是 第 一 个 匹配 (Last 非 空 )， 则 把 该 数据 报 放 到 上 一 个 匹配 的 接收 队列 中 。 
因为 当 sbappendqadqr 完 成 后 要 释放 mbuf 链 ， 所 以 m_copy 先 要 做 个 备份 。sorwakeup 唤 醒 
所 有 等 待 这 个 数据 的 进程 ，last 保 存 指向 匹配 的 socket 结 构 的 指针 。 
使 用 变量 1ast 避 免 调 用 m_copy 函数 ( 因 为 要 复制 整个 mbuf 链 ， 所 以 耗费 很 大 )， 除非 有 
多 个 接收 方 接收 该 数据 报 。 在 通常 只 有 一 个 接收 方 的 情况 下 ，for 循 环 必 须 把 1ast 设 成 指向 
一 个 匹配 PCB， 当 循环 终止 时 ，sbappendaddr 把 mbuf 链 放 到 插口 的 接收 队列 中 不 做 备 
份 。 
178-188 ”如 果 匹 配 的 插口 没有 设置 80_REUSEPORT 或 50_REUSEADDR 插 口 选 项 ， 则 没 必 
要 再 找 其 他 匹配 ， 终 止 该 循环 。 在 循环 的 外 部 ， 调 用 sbappendaddr 把 数据 报 放 到 这 个 插口 
的 接收 队列 中 。 
189-197 ”如 果 在 循环 的 最 后 ，last 为 空 ， 没 找到 匹配 ， 则 并 不 产生 ICMP 差 错 ， 因 为 该 数 
据 报 是 发 给 广播 或 多 播 P 地 址 。 
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198-204 JERI VR AH Ca] SE EE — B5 VU o A, OHER RR ERORE EAKR 0] E 
在 调用 sorwakeup 后 ，udp_input 返 回 ， 因 为 完成 了 对 广播 或 多 播 数据 报 的 处 理 。 
函数 的 其 他 部 分 (图 23-24) 处 理 单 播 数 据 报 。 


23.7.4 连接 上 的 UDP 播 口 和 多 接口 主机 


在 使 用 连接 上 的 UDP 插口 与 多 接口 主机 上 的 一 个 进程 交换 数据 报时 ， 有 一 个 微妙 的 问题 。 
来 自 对 等 实体 的 数据 报 可 能 到 达 时 具有 不 同 的 源 站 IP 地 址 ， 不 能 提交 给 连接 上 的 插口 。 
考虑 图 23-27 所 示 的 例子 。 


PPP 链 路 






服务 器 进程 ， 
未 连接 上 的 
UDP 


客户 进程 
连接 到 





图 23-27 连接 上 的 UDP 播 口 向 一 个 多 接口 主机 发 送 数据 报 的 例子 


有 三 个 步骤 : 

D bpsdi 上 的 客户 程序 创建 一 个 UDP 插 口 ， 并 把 它 连 接 到 140.252.1.29， 这 是 sun 上 的 PPP 
接口 ， 而 不 是 以 太 网 接口 。 客 户 程序 在 插口 上 把 数据 报 发 给 服务 器 。 

sun 上 的 服务 器 接收 并 收 下 该 数据 报 ， 即 使 到 达 接 口 与 目的 IP 地 址 不 同 (sun 是 一 个 路 由 
器 ， 所 以 不 管 它 实 现 的 是 弱 端 系统 模型 或 强 端 系统 模型 都 没有 关系 )。 数 据 报 被 提交 给 在 未 连 
接 上 的 UDP 插口 上 等 待 客户 请 求 的 服务 器 。 

2) 服务 器 发 一 个 回答 ， 因 为 是 在 一 个 未 连接 上 的 UDP 插口 上 发 送 的 ， 所 以 由 内 核 根 据 外 
出 的 接口 (140.252.13.33) 选 择 回 答 的 目的 IP 地 址 。 请 求 的 目的 下 地 址 不 作为 回答 的 源 站 地 址 。 

bsdi 收 到 回答 时 ， 因 为 IP 地 址 不 匹配 ， 所 以 不 把 它 提交 给 客户 程序 的 连接 上 的 UDP 接 
H. 
3) 因为 无 法 分 用 回答 ， 所 以 bsdi 产 生 一 个 ICMP 端 口 不 可 达 差 错 ( 假 定 在 bsdi 上 没有 其 
他 进程 符合 接收 该 数据 报 的 条 件 )。 

这 个 例子 的 问题 在 于 ， 服 务 器 并 不 把 请 求 中 的 目的 IP 地 址 作为 回答 的 源 站 IP 地 址 。 如 果 
它 这 样 做 ， 就 不 存在 这 个 问题 了 ， 但 这 个 办 法 并 不 简单 一 一 见习 题 23.10。 我 们 将 在 图 28-16 中 
看 到 ， 如 果 一 个 TCP 服 务 器 没有 明确 地 把 一 个 本 地 IP 地 址 绑 定 它 的 插口 上 ， 它 就 把 来 自 客户 
的 目的 IP 地 址 用 作 来 自 它 自己 的 源 IP 地 址 。 


23.8 udp_saveopt 函 数 


如 果 进 程 指定 了 IP_RECVDSTADDR 揪 口 选 项 ， 则 udp_input 调 用 udp_saveopt， 从 
收 到 的 数据 报 中 接收 目的 下 地 址 : 
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*mp - udp saveopt((caddr t) & ip dst, sizeof(struct in addr), 
IP RECVDSTADDR); 


图 23-28 显 示 了 这 个 函数 。 








TET udp usrreq.c 
279 * Create a "control* mbuf containing the specified data 
280 * with the specified type for presentation with a datagram. 
281 */ 
282 struct mbuf * 
283 udp saveopt(p, size, type) 
284 caddr t p; 
285 int size; 
286 int type; 
287 ( . 
288 struct cmsghdr *cp; 
289 struct mbuf *m; 
290 if ((m = m get (M DONTWAIT, MT CONTROL)) == NULL) 
291 ` return ((struct mbuf *) NULL); 
292 cp = (struct cmsghdr *) mtod(m, struct cmsghdr *); 
293 bcopy(p, CMSG, DATA(cp), size); 
294 size «- sizeof(*cp); 
295 m-»m len - size; 
296 Cp-»cmsg len = size; 
297 Cp-»cmsg level = IPPROTO IP; a 
298 cp-»cmsg type = type; 
299 return (m); 
300 } 
udp usrreq.c 


图 23-28 udp_saveopt 国 数 : 用 控制 信息 创建 mbuf 


mbuf() 


ii 
| 


16 
IPPROTO IP "MM 
iP RECVDsTADDR | 16 位 控制 信息 


日 的 IP 地 址 












cmsg level 


cmsg type 


图 23-29 把 收 到 的 数据 报 的 目的 地 址 作为 控制 信息 保存 的 mbuf 


276-286 参数 包括 p， 一 个 指向 存储 在 mbuf 中 的 信息 的 指针 ( 收 到 的 数据 报 的 目的 下 地 址 ); 
size， 字 节 数 大 小 (在 这 个 例子 中 是 4，IP 地 址 的 大 小 ); 以 及 type， 控 制 信息 的 类 型 
(IP. RECVDSTADDR), 

290-299 分配 一 个 mbuf， 并 且 因 为 是 在 软件 中 断 级 执行 代码 ， 所 以 指定 4_DONTWAIT。 指 
针 cp 指 向 mbuf 的 数据 部 分 ， 是 一 个 指向 cmsghdr 结 构 (图 16-14) 的 指针 。bcopy 把 IP 首 部 中 
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的 IP 地 址 复制 到 cmsghar 结 构 的 数据 部 分 。 然 后 设置 紧 跟 在 cmsghdr 结 构 后 面 的 mbuf 的 长 度 
(在 本 例 中 设 成 16)。 图 23-29 是 mbuf 的 最 后 一 个 状态 。 

cmsg_len 字 段 包 含 了 cmsghdr 的 长 度 (12) 加 上 cmsg_aata 字 段 的 长 度 (本 例 中 是 4)。 如 
果 应 用 程序 调用 recvmsg 接 收 控制 信息 ， 则 它 必 须 检查 cmsghdr 结 构 ， 确 定 cmsg_dqata 字 
段 的 类 型 和 长 度 。 


23.9 udp ctlinputtfiZ 


当 icmp_input 收 到 一 个 ICMP 差 错 (目的 主机 不 可 达 、 参 数 问题 、 重 定向 、 源 站 抑制 和 
超时 ) 时 ， 调 用 相应 协议 的 pr_ctlinput 函数 : 
if (ctlfunc = inetsw[ ip protox[icp-»icmp ip.ip p] ] .pr_ctlinput) 
(*ctlfunc)(code, (struct sockaddr *)&icmpsrc, &icp-»icmp ip); 


对 于 UDP， 调 用 图 22-32 显 示 的 函数 udp_ctlinput。 我 们 将 在 图 23-30 中 给 出 这 个 函数 。 
314-322 参数 包括 cmda， 图 11-19 的 一 个 PRC_xxx 常 数 ; sa， 一 个 指向 sockaddr_in 结 构 的 
指针 ， 该 结构 含有 ICMP 报 文 的 源 站 IP 地 址 ; ip， 一 个 指向 引起 差错 的 IP 首 部 的 指针 。 对 于 目 
的 站 不 可 达 、 参 数 问 题 、 源 站 抑制 和 超时 差错 ，ip 指 向 引起 差错 的 IP 首 部 。 但 当 pfctlinput 
为 重 定向 (图 22-32) 调 用 udp_ctlinput 时 ，sa 指 向 一 个 sockaddr_in 结 构 ， 该 结构 中 包含 
要 被 重 定向 的 目的 地 址 ,. ip 是 一 个 空 指针 。 最 后 一 种 情况 没有 信息 丢失 ， 因 为 我 们 在 22.11 市 
看 到 ， 重 定向 应 用 于 所 有 连接 到 目的 地 址 的 TCP 和 UDP 插口。 但 对 其 他 差错 ， 如 端口 不 可 达 ， 
需要 非 空 的 第 三 个 参数 ， 因 为 协议 跟 在 IP 首 部 后 面 的 协议 首部 包含 了 不 可 达 端 口 。 

323-325 如 果 差 错 不 是 重 定 向 ， 并 且 PRC_xxx 的 值 太 大 或 全 局 数组 inetctlerrmap 中 没 
有 差错 码 ， 则 忽略 该 ICMP 差 错 。 为 理解 这 个 检测 ， 我 们 来 看 一 下 对 收 到 的 ICMP 所 做 的 处 理 : 

1) icmp_input 把 ICMP 类 型 和 码 转 换 成 一 个 PRC_xxx 差 错 码 。 

2) 把 PRC_xxx 差 错 码 传 给 协议 的 控制 输入 函数 。 

3) Internet PCB 协 议 (TCP 和 UDP) 用 inetctlerrmap 把 PRC_xxx 差 错 码 上 映射 到 一 个 Unix 
的 errno 值 ， 这 个 值 被 返回 给 进程 。 





314 void udp usrreq.c 
315 udp ctlinput(cmd, sa, ip) 
316 int emd; 
317 struct sockaddr *sa; 
318 struct ip *ip; 
319 ( 
320 struct udphdr *uh; 
321 extern struct in addr zeroin addr; 
322 extern u_char inetctlerrmap[]l: 
323 if (!PRC IS REDIRECT(cmd) && 
' 324 ((unsigned) cmd >= PRC_NCMDS || inetctlerrmap([cmd] == 0)) 
325 return; 
326 if (ip) { 
327 uh = (struct udphdr *) ((caddr t) ip + (ip-»-ip hl << 2)); 
328 in pcbnotify(&udb, sa, uh-»uh dport, ip-»ip src, uh-»uh sport, 
329 cmd, udp notify); 
330 ) else 
331 in, pcbnotify (&udb, sa, 0, zeroin addr, 0, cmd, udp notify); 
332 ] 
udp usrreq.c 


图 23-30 udp ctlinputgAZE: 处 理 收 到 的 ICMP 差 错 
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图 11-1 和 图 11-2 总 结 了 ICMP 报 文 的 处 理 。 

回 到 图 23-30， 我 们 可 以 看 到 如 何 处 理 响 应 UDP 数据 报 的 ICMP 源 站 抑制 报 文 。 
icmp_input 把 ICMP 报 文 转换 成 差错 PRC_QUENCH， 并 调用 udp_ct1linput。 但 因为 在 图 
11-2 中 ， 这 个 ICMP 差 错 的 errno 行 是 空白 ， 所 以 忽略 该 差错 。 

326-331 in_pcbnotifv 函 数 把 该 ICMP 差 错 通知 给 恰当 的 PCB 。 如 果 uqp_ctlinput 的 第 
三 个 参数 非 空 ， 则 把 引起 差错 数据 报 的 源 和 目的 UDP 端口 以 及 源 王 地址 ， 传 给 in_Ppcbnotify。 


udp_notify 函 数 


in_pcbnotify 函 数 的 最 后 一 个 参数 是 一 个 指向 函数 的 指针 ，in._pcbnotify 为 每 个 准 
备 接收 差错 的 PCB 调 用 该 函数 。 对 UDP， 该 函数 是 udp_notify， 如 图 23-31 所 示 。 
301-313 ”该 函数 的 第 二 个 参数 errno 保 存在 插口 的 so_error 变 量 中 。 通 过 设置 这 个 插口 
变量 ， 使 插口 变 成 可 读 ， 并 且 如 果 进 程 调用 select， 播 口 也 可 写 。 然 后 唤醒 插口 上 所 有 正在 
等 待 接收 或 发 送 的 进程 接收 该 差错 。 





- udp usrreq.c 
305 static void 
306 udp.notify(inp, errno) 
307 struct inpcb *inp; 
308 int errno; 
309 ( 
310 inp-»inp socket-»so error = errno; 
311 Sorwakeup(inp-»inp, socket); 
312 sowwakeup (inp-»inp, socket); 
313 ) 

udp usrreq.c 





图 23-31 udp_notify 函 数 : 通知 进程 一 个 异步 差错 


23.10 udp_usrreq 函 数 


许多 操作 都 要 调用 协议 的 用 户 请 求 函 数 。 从 图 23-14 我 们 看 到 ， 在 某 个 UDP 插 口上 调用 五 
个 写 函 数 中 的 任意 一 个 ， 都 以 请 求 PRU_SEND 调 用 UDP 的 用 户 请 求 函 数 结束 。 

图 23-32 显 示 了 uap_usrreg 的 开始 和 结束 。switch 单 独 在 后 面 的 图 中 给 出 。 图 15-17 显 
示 了 该 函数 的 参数 。 

417 int 


418 udp usrreq(so, req, m, addr, control) 
419 struct socket *so; 


udp usrreq.c 





420 int req; 

421 struct mbuf *m, *addr, *control; 

422 ( 

423 struct inpcb *inp = sotoinpcbíso); 

424 int error - 0; 

425 int S; ! 

426 if (req == PRU, CONTROL) 

427 return (in control(so, (int) m, (caddr t) addr, 
428 (struct ifnet *) control)); 
429 if (inp == NULL && req !- PRU ATTACH) ( 

430 error - EINVAL; 

431 goto release; 

432 ) 


图 23-32 udp usrreqmJK 
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433 /* 
434 * Note: need to block udp input while changing 
435 * the udp pcb queue and/or pcb addresses. 
436 */ 
437 switch (req) ( 
/* switch cases */ 
522 default: 
523 panic("udp usrreq"); 
524 } 
525 release: 
526 if (control) { 
527 printf("udp control data unexpectedly retained Win"); 
528 m freem(control); 
529 H 
530 if (m) 
531 m freem(ím); 
532 return (error); 
533 } 


udp usrreq.c 





图 23-32 (£5) 


417-428 PRU_CONTROL 请 求 来 自 ioct1 系 统 调用 。 销 数 ijn_control 完 整地 处 理 该 请 求 。 
429-432 ”在 函数 的 开头 定义 inp 时 ， 把 插口 指针 转换 成 PCB 指 针 。 唯 一 允许 PCB 指 针 为 空 
的 时 候 是 创建 新 插口 时 (PRU_ATTACH)。 
433-436 注释 表明 ， 只 要 在 UDP PCB 表 中 增加 或 删除 表 项 ， 代 码 必须 由 splnet 保 护 起 来 。 
这 是 因为 udQp_usrreq 是 作为 系统 调用 的 一 部 分 来 调用 的 ， 在 它 修改 PCB 的 双重 链表 时 ， 不 
能 被 UDP 输入 中 断 (被 IP 输 入 作为 软件 中 断 调 用 )。 在 修改 PCB 的 本 地 或 外 部 地 址 或 端口 时 ， 也 
必须 阻塞 UDP 输 入 ， 避 免 in_pcblookup 不 正确 地 提交 收 到 的 UDP 数 据 报 。 

我 们 现在 讨论 每 个 case 语 名 。 图 23-33 语 名 中 的 PRU_ATTACH 请 求 ， 来 自 socket 系统 调用 。 





udp_usrreq.c 
438 case PRU_ATTACH: 
439 if (inp t= NULL) ( 
440 error - EINVAL; 
441 break; 
442 } 
443 S = splnet(); 
444 error - in pcballoc(so, &udb); 
445 Splx(s); 
446 if (error) 
$47 break; 
448 error = soreserve(so, udp sendspace, udp. recvspace); 
449 if (error) 
450 break; 
451 ((struct inpcb *) so-»so pcb)-»inp ip.ip ttl = ip defttl; 
452 break; 
453 case PRU DETACH: 
454 udp. detach (inp); 
455 break; 
udp usrreq.c 





图 23-33 udp_usrreq 函 数 : PRU_ATTACH 和 PRU_DETACH 请 求 
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438-447 如 果 播 口 结构 已 经 指向 一 个 PCB， 则 返回 EINVAL。in_pcpalloc 分 配 一 个 新 的 
PCB， 把 它 加 到 UDP PCB 表 的 前 面 ， 把 插口 结构 和 PCB 链 接 到 一 起 。 

448-450 soreserve 为 插口 的 发 送 和 接收 缓存 保留 缓存 空间 。 如 图 16-7 所 示 ， 
soreserve 只 是 实施 系统 的 限制 ， 并 没有 真正 分 配 缓存 空间 。 发 送 和 接收 缓存 的 默认 大 小 分 
别 是 9216 字 节 (udp_sendspace) 和 41 600 字 节 (udp_recvspace)。 前 者 允许 最 大 9200 字 节 
的 数据 报 ( 在 NFS 分 组 中 ， 有 8 KB 的 数据 )， 加 上 16 字 节目 的 地 址 的 sockaddr__in 结 构 。 后 者 
允许 插口 上 一 次 最 多 有 40 个 1024 字 节 的 数据 报 排队 。 进 程 可 调用 setsockopt 改 变 这 些 值 。 
451-452 进程 通过 setsockopt 函 数 可 以 改变 PCB 中 原型 IP 首 部 的 两 个 字段 : TTL 和 TOS。 
TTL 上 默认 值 是 64(ip_deftt1)，TOS 的 默认 值 是 0( 普 通 服 务 )， 因 为 jn_pcballoc 把 PCB 初 
始 化 为 0。 

453-455 close 系 统 调用 发 布 PRU_DETACH 请 求 ， 调 用 图 23-34 所 示 的 udp_detach 函 数 。 
本 节 后 面 的 PRU_ABORT 请 求 也 调用 这 个 函数 。 


534 static void udp_usrreq.c 
535 udp_detach (inp) 
536 struct inpcb *inp; 
537 { 
538 int s = splnet(); 
539 if (inp == udp last inpcb) 
540 udp last, inpcb - &udb; 
541 in, pcbdetach (inp); 
542 splix(s); 
543 } 
udp usrreq.c 


图 23-34 udp detachERZ&: 删除 一 个 UDP PCB. 


如 果 最 后 收 到 的 PCB 指 针 (“ 向 后 一 个 ”缓存 ) 指 向 一 个 已 分 离 的 PCB， 则 把 缓存 的 指针 设 
成 指向 UDP 表 的 表 头 (udab)。 函 数 in_pcbdetach 从 UDP 表 中 移 走 PCB， 并 释放 该 PCB。 

回 到 udp_usrreq，PRU_BIND 请 求 是 系统 调用 bind 的 结果 ， 而 PRU_LISTEN 请 求 是 系 
统 调用 1isten 的 结果 。 如 图 23-35 所 示 。 
456-460 in_pcbbind 完 成 所 有 PRU_BIND 请 求 的 工作 。 
461-463 对 无 连接 协议 来 说 ，PRU_LISTEN 请 求 是 无 效 的 一 一 只 有 面向 连接 的 协议 才 使 用 它 。 





udp usrreq.c 
456 case PRU, BIND: 
457 S = Splnet(); 
458 error - in, pcbbind(inp, addr); 
459 splxí(s); 
460 break; 
461 case PRU LISTEN: 
462 error - EOPNOTSUPP; 
463 break; 
udp usrreq.c 





图 23-35 udp_usrreq 国 数 : PRU_BIND 和 PRU_LISTEN 请 求 


前 面 提 到 ， 一 个 UDP 应 用 程序 ， 客 户 或 服务 器 (通常 是 客户 )， 可 以 调用 connect。 它 修 
改 插 口 发 送 或 接收 的 外 部 IP 地 址 和 端口 号 。 图 23-6 显 示 了 PRU_CONNECT、PRU_CONNECT2 
和 PRU_ACCEPT 请 求 。 | 
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464-474 如果 插口 已 经 连接 上 ， 则 返回 EISCONN。 在 这 个 时 候 ， 不 应 该 连接 上 插口 ， 因 为 
在 一 个 已 经 连接 上 的 UDP 插 口上 调用 connect， 会 在 生成 PRU_CONNECT 请 求 之 前 生成 
PRU_DISCONNECT 请 求 。 否 则 ， 由 in_pcbconnect 完 成 所 有 工作 。 如 果 没 有 遇 到 任何 错误 ， 
soisconnected 就 把 该 播 口 结构 标记 成 已 经 连接 上 的 。 

475-477 socketpair 系 统 调用 发 布 PRU_CONNECT2 请 求 ， 只 适用 于 Unix 域 的 协议 。 
478-480 PRU_ACCEPT 请 求 来 自 系 统 调用 accept， 只 适用 于 面向 连接 的 协议 。 


464 case PRU_CONNECT: udp_usrreq.c 
465 if (inp-»inp.faddr.s addr !- INADDR ANY) { 
466 error = EISCONN; 
467 break; 
468 } 
469 S = splnet(); 
470 P error - in pcbconnect(inp, addr); 
471 Splxí(s); 
472 if (error -- 0) 
473 soisconnected(so); 
474 break; 
475 case PRU, CONNECT2: 
476 error - EOPNOTSUPP; 
477 break; 
478 case PRU ACCEPT: 
479 error - EOPNOTSUPP; 
480 break; 
udp usrreq.c 


图 23-36 udp_usrreqř $t: PRU. CONNECT. PRU CONNECT24fHPRU. ACCEPTiÉzk 


对 于 UDP 插口 ， 有 两 种 情况 会 产生 PRU_DISCONNECT 请 求 : 

1) 当 关 闭 了 一 个 连接 上 的 UDP 揪 口 时 ， 在 PRU_DETACH 之 前 调用 PRU_DISCONNECT。 

2) 当 在 一 个 已 经 连接 上 的 UDP 插 口上 发 布 connect 时 ，soconnect 在 PRU_CONNECT 
请 求 之 前 发 布 PRU_DISCONNECT 请 求 。 

PRU_DISCONNECT 请 求 如 图 23-37 所 示 。 





udp_usrreq.c 
481 case PRU, DISCONNECT: 
482 if (inp-»inp faddr.s, addr == INADDR ANY) { 
483 error - ENOTCONN; 
484 break; 
485 } 
486 S = splnet(); 
487 in pcbdisconnect(inp); 
488 inp-»inp laddr.s, addr - INADDR, ANY; 
489 splxí(s); 
490 SO-»SO State &- ^SS ISCONNECTED; /* XXX */ 
491 break; udp uerreq.c 





图 23-37 udp usrreqtü ft: PRU_DISCONNECT 请 求 
如 果 插 口 没 有 连接 上 ， 则 返回 ENOTCONN。 否 则 ，in_pcbdisconnect 把 外 部 IP 地 址 设 
成 0.0.0.0， 把 外 部 地 址 设 成 0。 本 地 地 址 也 被 设 成 0.0.0.0， 因 为 connect 可 能 已 经 设置 了 这 个 


PCB 变 量 。 
调用 shutaown 说 明 进 程 数据 发 送 结束 ， 产 生 PRU_SHUTDOWN 请 求 ， 尽 管 对 UDP 播 口 来 


632  TCP/IPXÉEK X2: 实现 


说 ， 很 少 有 进程 发 布 这 个 系统 调用 。 图 23-38 显 示 了 PRU_SHUTDOWN、PRU_SEND 和 
PRU_ABORT 请 求 。 

492-494 socantsendmore 设 置 插口 的 标志 ， 阻 止 其 他 更 多 输出 。 

495-496 图 23-14 显 示 了 五 个 写 函 数 如 何 调用 udp_surreq， 发 布 PRU_SEND 请 求 。udp_ 
output 发 送 该 数据 报 ，udp_usrreq 返 回 ， 避 免 执行 Trelease 标 号 语句 (图 23-32)， 因 为 还 不 
能 释放 包含 数据 的 mbuf 链 (m。 了 输出 把 这 个 mbuf 链 加 到 合适 的 接口 输出 队列 中 ， 当 发 送 完 数 据 
后 ， 由 设备 驱动 器 释放 mbuf 链 。 


492 case PRU SHUTDOWN: udp. usrreq.c 
493 Socantsendmore(so); 
494 break; 
495 case PRU SEND: 
496 return (udp output(inp, m, addr, control)); 
497 case PRU, ABORT: 
498 Soisdisconnected(so); 
499 udp_detach (inp); 
500 break; 
udp_usrreq.c 








图 23-38 udp usrreatüZüfk: PRU__SHUTDOWN、PRU__SEND 和 PRU__ABORT 请 求 


内 核 中 UDP 输出 的 唯一 缓冲 是 在 接口 的 输出 队列 中 。 如 果 播 口 的 发 送 缓存 内 有 存放 数据 
报 和 目的 地 址 的 空间 ， 则 sosend 调 用 udap_usrreqgd， 该 国 数 调用 udp_output。 图 23-20 显 
示 ，udp_output 继 续 调 用 ip_output，ip_output 为 以 太 网 调用 ether_output， 把 
数据 报 放 到 接口 的 输出 队列 中 (如 果 有 空间 )。 如 果 进 程 调 用 sendto 的 动作 比 接口 快 ， 就 可 以 
发 送 该 数据 报 ，ether_output 返 回 ENOBUFS， 并 被 返回 给 进程 。 
497-500 在 UDP 插口 上 从 不 发 布 PRU_ABORT 请 求 。 但 如 果 发 布 ， 则 断 连 插口 ， 分 离 PCB。 

PRU_SOCKADDR 和 PRU_PEERADDR 请 求 分 别 来 自 系 统 调用 getsockname 和 
getpeername。 这 两 个 请 求 和 PRU_SENSE 请 求 一 起 ， 如 图 23-39 所 示 。 





udp_usrreq.c 
501 case PRU SOCKADDR: 
502 in_setsockaddr (inp, addr}; 
503 break; 
504 Case PRU, PEERADDR: 
505 in setpeeraddr(inp, addr); 
506 break; 
507 case PRU SENSE: 
508 /* 
509 * fstat: don't bother with a blocksize. 
510 */ 
511 return (0); 
udp, usrreg.c 





图 23-39 udp_usrreq 国 数 体 : PRU. SOCKADDR. PRU, PEERADDRAUPRU, SFRNSE 请 求 
501-506 国 数 in_setsockaddr 和 in_setpeeradqr 从 PCB 中 取得 信息 ， 并 把 结果 保存 
在 addr 参 数 中 。 

507-511 ”系统 调用 fstat 产 生 PRU_SENSE 请 求 。 该 函数 返回 OK， 但 并 不 返回 其 他 信息 。 
我 们 将 在 后 面 看 到 ，TCP 把 发 送 缓存 的 大 小 作为 stat 结 构 的 st_blksize 元 素 返 回 。 
图 23-40 显 示 了 其 他 7 个 PRU_xxx 请 求 ，UDP 插 口 不 支持 。 
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对 最 后 两 个 请 求 的 处 理 略 微 有 些 不 同 ， 因 为 PRU_RCVD 不 把 指向 mbuf 的 指针 (m 是 一 个 非 空 
指针 ) 作 为 参数 传递 ， 而 PRU_RCVOOB 则 传递 指向 协议 mbuf 的 指针 来 填充 。 两 种 情况 下 ， 立 即 返 
回 错 误 ， 不 终止 switch 语 旬 的 执行 ， 释 放 mbuf 链 。 调 用 方 用 PRU_RCVOOB 释 放 它 分 配 的 mbuf。 


512 case PRU_SENDOOB: udp_usrreq.c 
513 Case PRU_FASTTIMO: 

514 Case PRU, SLOWTIMO: 

515 case PRU PROTORCV: 

516 case PRU, PROTOSEND: 

517 error - EOPNOTSUPP; 

518 break; 

519 case PRU, RCVD: 

520 case PRU RCVOOB: 

521 return (EOPNOTSUPDP); /* do not free mbuf's */ 


udp usrreq.c 





图 23-40 udp_usrred 国 数 体 : 不 支持 的 7 个 请 求 


23.11 _ udp_sysct1 函 数 


UDP 的 sysct1l 国 数 只 支持 一 个 选项 ，UDP 检 验 和 标志 人 位。 系统 管理 员 可 以 禁止 用 
sysccl(8) 程 序 使 能 或 禁止 UDP 检验 和 。 图 23-41 显 示 了 udap_sysct1l 困 数 。 该 图 数 调用 
sysctl1_int 有 取得 或 设置 整数 udpcksum 的 值 。 


udp_usrreq.c 
547 udp. sysctl(name, namelen, oldp, oldlenp, newp, newlen) 
548 int *name; 
549 u int namelen; 
550 void *oldp; 
55] size t *oldlenp; 
552 void *newp; 
553 size t newlen; 
554 ( 
555 /* All sysctl names at this level are terminal. */ 
556 if (namelen !- 1) 
557 return (ENOTDIR); 
558 switch (name[0]) ( 
559 case UDPCTL, CHECKSUM: 
560 return (sysctl int(oldp, oldlenp, newp, newlen, &udpcksum)); 
561 default: 
562 return (ENOPROTOOPT); 
563 } 
564 /* NOTREACHED */ 
565 } 


udp usrreq.c 


图 23-41 udp sysctli A 
23.12 实现 求 精 


23.12.1 UDP PCB 高 速 缓存 


在 22.12 池 中 ， 我 们 讲 到 PCB 搜 索 的 一 般 性 质 ， 以 及 代码 是 如 何 线性 搜索 协议 的 PCB 表 的 。 
现在 我 们 把 它 和 图 23-24 中 UDP 使 用 的 “向 后 一 个 ”高 速 缓存 结合 起 来 。 
“向 后 一 个 ”高 速 缓 存 的 问题 发 生 在 当 高 速 缓 存 的 PCB 中 有 通 配 值 时 (本 地 地 址 ， 外 部 地 址 
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或 外 部 端口 ): 高 速 缓存 的 值 永远 不 和 收 到 的 数据 报 匹 配 。[Partridge 和 Pink 1993] 测试 的 一 个 
解决 办 法 是 ， 修 改 高 速 缓存 ， 不 比较 通 配 值 。 也 就 是 说 ， 不 再 把 PCB 中 的 外 部 地 址 和 数据 报 
的 源 地 址 进行 比较 ， 而 是 只 有 当 PCB 中 的 外 部 地 址 不 是 通 配 地 址 时 ， 才 比较 这 两 个 值 。 

这 个 办 法 有 一 个 微妙 的 问题 [Partridge 和 Pink 1993]。 假 定 有 两 个 播 口 绑 定 到 本 地 端口 555 
上 。 基 中 一 个 有 三 个 通 配 成 份 ， 而 另 一 个 已 经 连接 到 外 部 地 址 128.1.2.3， 外 部 端口 1600。 如 
果 我 们 高 速 缓存 第 一 个 PCB， 且 有 一 个 数据 报 来 自 128.1.2.3， 端 口 1600， 则 不 能 仅仅 因为 高 
速 缓存 的 值 上 共有 通 配 外 部 地 址 就 不 比较 外 部 地 址 。 这 叫做 高 速 缓存 隐藏 (cache hiding)。 在 这 
个 例子 中 ， 高 速 缓存 的 PCB 隐 藏 了 另 一 个 更 好 匹配 的 PCB 。 

为 解决 高 速 缓存 隐藏 ， 当 在 高 速 缓存 加 上 或 删除 一 个 入口 时 ， 要 做 更 多 的 工作 。 不 能 高 
速 缓存 那些 可 能 隐藏 其 他 PCB 的 PCB 。 但 这 很 简单 ， 因 为 普通 情形 是 每 个 本 地 端口 都 有 一 个 
插口 。 刚 才 我 们 给 的 例子 中 ， 两 个 插口 都 绑 定 到 本 地 端口 555， 尽 管 可 能 (尤其 在 一 个 多 接口 
主机 上 )， 但 很 少见 。 

[Partridge 和 Pink 1993] 的 另 一 个 提高 测试 的 也 是 记录 最 后 发 送 的 数据 报 的 PCB 。 这 是 
[Mogul 1991] 查 出 的 ， 指 出 在 所 有 收 到 的 数据 报 中 ， 一 半 都 是 对 最 后 发 送 的 数据 报 的 回答 。 在 
这 里 高 速 缓存 隐 藏 也 是 个 问题 ， 所 以 不 高 速 缓存 那些 可 能 隐藏 其 他 PCB 的 PCB 。 

在 通用 系统 上 测试 [Partridge 和 Pink 1993] 的 两 种 高 速 缓存 结果 是 ，100 000 个 左右 收 到 的 
UDP 数据 报 显示 出 57% 命 中 最 近 收 到 PCB 高 速 缓存 ，30% 命 中 最 近 发 送 PCB 高 速 缓存 。 相 比 于 
没有 高 速 缓存 的 版 本 ，udp_input 使 用 的 CPU 时 间 减 少 了 一 半 还 多 。 

这 两 种 高 速 缓存 还 在 某 种 程度 上 依赖 于 位 置 : 刚刚 到 达 的 UDP 数据 报 极 大 可 能 来 自 与 最 
近 收 到 或 发 送 UDP 数 据 报 相 同 的 对 等 实体 上 。 后 者 对 发 送 一 个 数据 报 并 等 待 回 答 的 请 求 一 应 
答应 用 程序 很 典型 。[McKenney 和 Dove 1992] 显示 某 些 应 用 程序 ， 如 联机 交易 处 理 (OLIP) 系 
统 的 数据 入 口 ， 设 有 产生 [Partridge 和 Pink 1993] 观察 到 的 很 高 的 命中 率 。 正 如 我 们 在 22.12 节 
中 提 到 的 ， 对 于 具有 上 千 个 OLTP 连 接 的 系统 来 说 ， 把 PCB 放 在 哈 希 链 上 ， 相 对 于 最 近 收 到 和 
最 近 发 送 高 速 缓存 而 言 ， 性 能 提高 了 一 个 数量 级 。 


23.12.2 UDP 检验 和 


提高 实现 性 能 的 下 一 个 领域 是 把 进程 和 内 核 之 间 的 数据 复制 与 检验 和 计算 结合 起 来 .。 Net/3 中 ， 
在 输出 操作 中 ， 每 个 数据 都 被 处 理 两 遍 : 一 次 是 从 进程 复制 到 mbuf 中 (uiomove 困 数 ， 被 sosenq 
调用 );， 另 一 次 是 计算 UDP 检验 和 (函数 in_cksum 被 udp_output 调 用 )。 输 入 跟 输 出 一 样 。 

[Partridge 和 Pink1993] 修改 了 图 23-14 的 UDP 输 出 处 理 ， 调用 一 个 UDP 专 有 函数 
udp_sosend, 而 不 是 sosend。 这 个 新 函数 计算 UDP 首部 和 内 任 的 伪 首 部 的 检验 和 (不 调用 
通用 的 ijn_cksum 函 数 )， 然 后 用 特殊 函数 in_uiomove 把 数据 从 进程 复制 到 一 个 mbuf 链 上 
(不 是 通用 函数 uiomove)， 由 这 个 新 函数 复制 数据 ， 更 新 检验 和 。 采 用 这 个 技术 ， 花 在 复制 
数据 和 计算 检验 和 的 时 间 减 少 了 40% 到 45%。 

在 接收 方 情 况 就 不 同 了 。UDP 计算 UDP 首 部 和 伪 首 部 的 检验 和 ， 移 走 UDP 首 部 ， 把 数据 
报 在 合适 的 插口 上 排队 。 当 应 用 程序 读 取 数 据 报时 ，s oreceive 的 一 个 特殊 版 本 
(udp_soreceive) 在 把 数据 复制 到 用 户 高 速 缓 存 的 同时 ， 计 算 检验 和 。 但 是 ， 如 果 检 验 和 不 
正确 ， 在 整个 数据 报 被 复制 到 用 户 高 速 缓存 之 前 ， 检 测 不 到 错误 。 对 于 普通 的 阻塞 插口 来 说 ， 
udp_soreceive 仅 仅 等 待 下 一 个 数据 报 的 到 达 。 但 是 车 插口 是 无 阻塞 的 ， 且 下 一 个 数据 报 
还 没有 准备 好 传 给 进程 ， 就 必须 返回 差错 PEWOULDBLOCK。 对 于 无 阻塞 读 的 UDP 播 口 来 说 ， 
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这 意味 着 插口 接口 的 两 个 变化 : 

1) seIect 国 数 可 以 指示 无 阻塞 UDP 插曲 可 读 ， 但 如 果 检 验 和 失败 ， 共 中 一 个 读 函 数 依 
然 要 返回 错误 EWOULDBLOCK。 

2) 因为 是 在 数据 报 被 复制 到 用 户 高 速 缓存 之 后 检测 到 检验 和 错误 ， 所 以 即使 读 没 有 返回 
数据 ， 应 用 程序 的 高 速 缓存 也 被 改变 了 。 

即使 是 阻塞 插口 ， 如 果 有 检验 和 错误 的 数据 报 包 含 了 100 字 节 的 数据 ， 而 下 一 个 没有 错误 
的 数据 报 包含 40 字 节 的 数据 ， 则 recvfrom 的 返回 长 度 是 40， 但 跟 在 用 户 高 速 缓存 后 面 的 60 
字 节 没有 改变 。 

[Partridge 和 Pink1993] 在 六 台 不 同 计算 机 上 ， 对 单纯 复制 和 有 检验 和 的 复制 的 计时 作 了 比 
较 。 结 果 显 示 ， 在 许多 体系 结构 的 机 器 上 ， 在 复制 操作 中 计算 检验 和 无 需 额外 时 间 。 这 种 情 
况 是 在 内 存 访问 速度 和 CPU 处 理 速度 正确 匹配 的 系统 上 的 ， 目 前 许多 RISC 处 理 器 都 符合 条 件 。 


23.13 小 结 


UDP 是 一 个 无 连接 的 简单 协议 ， 这 是 我 们 为 什么 在 TCP 之 前 讨论 它 的 原因 。UDP 输 出 很 
简单 : IP 和 UDP 首部 放 在 用 户 数据 的 前 面 ， 尽 可 能 填 满 首部 ， 把 结果 传递 给 ip_output。 唯 
一 复杂 的 是 UDP 检验 和 计算 ， 包 括 只 为 计算 UDP 检验 和 而 加 上 一 个 伪 首 部 。 我 们 将 在 第 26 弄 
过 到 用 于 计算 TCP 检 验 和 的 伪 首 部 。 

当 udp_input 收 到 一 个 数据 报时 ， 它 首先 完成 一 个 常规 确认 (长 度 和 检验 和 ); 然后 的 处 
理 根 据 目的 IP 地 址 是 单 播 地 址 、 广 播 或 多 播 地 址 而 不 同 。 最 多 把 单 播 数 据 报 提交 给 一 个 进程 ， 
但 多 播 或 广播 数据 报 可 能 会 被 提交 给 多 个 进程 ,“ 向 后 一 个 ”高 速 缓存 适用 于 单 播 ， 其 中 维护 
着 一 个 指向 在 其 上 接收 数据 报 的 最 近 Interaet PCB 的 指针 。 但 是 ， 我 们 也 看 到 ， 由 于 UDP 应 用 
程序 普遍 使 用 通 配 地 址 ， 所 以 这 个 高 速 缓存 技术 实际 上 毫 无 用 处 。 

调用 udp_ct1linput 函 数 处 理 收 到 的 ICMP 报 文 ，udp_usrreq 浮 数 处 理 来 自 插口 层 的 
PRU_xxx 请 求 。 | 


23.1 列 出 udp_output 传 给 ip_output 的 mbuf 链 的 五 种 类 型 (提示 : 看 看 sosend)。 

232 当 进 程 为 外 出 的 数据 报 指 定 了 于 选项 时 ， 上 一 题 会 是 什么 答案 ? 

23.3 UDP 客户 需要 调用 bind 吗 ? 为 什么 ? 

23.4 如 果 插 口 没 有 连接 上 ， 并 且 图 23-15 中 调用 M_PREPEND 失 败 ， 那 么 在 udP_output 
里 ， 处 理 器 优先 级 会 发 生 什么 变化 ? 

23.5 udp_output 不 检测 目的 端口 0。 它 可 能 发 送 一 个 具有 日 的 端口 0 的 UDP 数 据 报 吗 ? 

23.6 假定 当 把 一 个 数据 报 发 送 到 一 个 广播 地 址 时 ，IP_RECVDSTADDR 插 口 选项 有 效 ， 
你 如 何 确定 这 个 地 址 是 否 是 一 个 广播 地 址 ? 

23.7 谁 释放 udp_saveopt( 图 23-38) 分 配 的 mbuf? 

23.8 进程 如 何 断 连连 接 上 的 UDP 播 妃 ? 也 就 是 说 ， 进 程 调用 connect 并 与 对 等 实体 交 
换 数据 报 ， 然 后 进程 要 断 连 插口 。 人 允许 它 调用 sendto， 并 向 其 他 主机 发 送 数 据 报 。 

23.9 我 们 在 图 22-25 的 讨论 中 ， 注 意 到 一 个 用 外 部 中 地 址 255.255.255.255 调 用 connect 的 UDP 
应 用 程序 ， 在 接口 上 发 送 时 ， 是 把 该 接口 对 应 的 广播 地 址 作为 目的 下 地 址 。 如 果 UDP 应 
用 使 用 未 连接 的 插口 ， 用 目的 地 址 255.255.255.255 调 用 sendto， 会 发 生 什 么 情况 ? 


第 24 章 TCP: 传输 控制 协议 


传输 控制 协议 ， 即 TCP， 是 一 种 面向 连接 的 传输 协议 ， 为 两 端的 应 用 程序 提供 可 靠 的 端 
到 端的 数据 流传 输 服务 。 它 完全 不 同 于 无 连接 的 、 提 供 不 可 靠 的 数据 报 传输 服务 的 UDP 协议 。 

我 们 在 第 23 章 中 详细 讨论 了 UDP 的 实现 ， 有 9 个 函数 、 约 800 行 C 代 码 。 我 们 将 要 讨论 的 
TCP 实 现 包括 28 个 函数 、 约 4500 行 C 代 码 ， 因 此 ， 我 们 将 TCP 的 实现 分 成 7 章 来 讨论 。 

这 几 音 中 不 包括 对 TCP 概 念 的 介绍 ， 假 定 读者 已 阅读 过 卷 1 的 第 17 章 ~ 第 24 章 ， 熟 悉 TCP 
的 操作 。 


24.2 代码 介绍 


TCP 实 现代 码 包括 7 个 头 文件 ， 其 中 定义 了 大 量 的 TCP 结 构 和 常量 和 6 个 C 文 件 ， 包 含 TCP 
函数 的 具体 实现 代码 。 文 件 如 图 24-1 所 示 。 


netinet/tcp.h tcphdr 结 构 定义 

netinet/tcp_debug.h tcP_debug 结 构 定义 

netinet/tcp fsm.h TCP 有 限 状 态 机 定义 

netinet/tcp_seg.h 实现 TCP 序 号 比较 的 宏 定 义 

netinet/tcp timer.h TCP 定 时 器 定义 

netinet/ tcp var.h tcpcb (控制 块 ) 和 tcpstat (统计 ) 结构 定 义 
netinet/tcpip.h TCP+IP 首 部 定义 


netinet/tcp_debug.c 支持 SO_DEBUG 协议 端口 号 调试 (第 27.10 节 ) 
netinet/tcp, input.c tcp_input 及 其 辅助 函数 (第 28 和 第 29 章 ) 
netinet/tcp_output.c tcp output M Hoi Bo er ic (3526 8€) 
netinet/tcp subr.c 各 种 TCP 子 函数 (第 27 章 ) 

netinet/tcp timer.c TCP 定 时 器 处 理 ( 第 25 章 ) 

netinet/tcp usrreq.c PRU_xxx 请 求 处 理 (第 30 章 ) 





图 24-1 TCP 各 章 中 将 讨论 的 文件 


图 24-2 描 述 了 各 TCP 函 数 与 其 他 内 核 函 数 之 间 的 关系 。 带 阴影 的 椭圆 分 别 表示 我 们 将 要 讨 
论 的 9 个 主要 的 TCP 孙 数 ， 其 中 8 个 出 现在 protosw 结 构 中 (图 24-8)， 第 9 个 是 tcp_output。 


24.2.1 全 局 变量 
图 24-3 列 出 了 TCP 销 数 中 用 到 的 全 局 变量 。 
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Actio 插 由 接收 缓 串 x 多 种 系统 调用 getsockopt 


setsockopt 





图 24-2 TCP 函 数 与 其 他 内 核 函 数 间 的 关系 


tc TCP Internet PCB4X X 
tcp last inpcb struct inpcb * | 指向 最 后 收 公 报 文 段 的 PCB 的 指针 : “后 而 一 个 ”高 速 缓存 
TCPO NERA 4 
输出 标志 数组 ， 索 引 为 连接 状态 (图 24-16) 
tcp recvspace 端口 接收 缓存 大 小 默认 值 (8192 字 节 ) 
端 11 发 送 缓存 大 小 默认 值 (8192 字 多 
TOPR ME OSS) 
ACK 重 复 次 数 的 门限 值 (3)， 触 发 快速 重 传 
tcp mssdflt int 默认 MSS 值 (512 字 节 ) 
tcp rttd£lt i 没有 数据 时 RTT 的 默认 值 (3 秒 ) 
tcp. do rírc1323 i 如 果 为 真 (默认 值 )， 请 求 窗口 大 小 和 时 间 惟 选项 
tcp_now : 用 十 RFC 1323 时 间 截 实现 的 500 ms 计数 器 
tcp. keepidle i 保 活 : 第 一 次 探 副 前 的 空 内 时 间 (2 小 时 ) 
tcp keepintvl int 保 活 : 无 响应 时 两 次 探测 的 间隔 时 间 (75 秒 ) 
tcp_maxidle i fii: 探测 之 后 、 放 弃 之 前 的 时 间 (10 分 钟 ) 


图 24-3 后 续 章 节 中 将 介绍 的 全 局 变量 











24.2.2 统计 量 


全 局 结构 变量 tcpstat 中 保存 了 各 种 TCP 统 计量 ， 图 24-4 描 述 了 各 统计 量 的 具体 含义 。 
在 接 下 来 的 代码 分 析 过 程 中 ， 读 者 会 了 解 到 这 些 计数 器 数值 的 变化 过 程 。 
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被 动 打开 的 连接 数 





tcps accepts 








tcps, closed 关 团 的 连接 数 (包括 意外 丢失 的 连接 ) 

tcps_connattempt 试图 建立 连接 的 次 数 (调用 connect) . 
tcps conndrops 在 连接 建立 阶段 失败 的 连接 次 数 (SYN 收 到 之 前 ) . 
tcps connects 主动 打开 的 连接 次 数 (调用 connect 成 功 ) 

tcps delack 延迟 发 送 的 ACK 数 

teps_drops 意外 丢失 的 连接 数 ( 收 到 SYN 之 后 ) . 
tcps. keepdrops 在 保 活 阶段 丢失 的 连接 数 ( 己 建 立 或 正 等 待 SYN) 
tcps_keepprobe 保 活 探测 指针 发 送 次 数 . 

tcps keeptimeo 保 活 定时 器 或 连接 建立 定时 器 超时 次 数 

tcps_pawsdrop 由 十 PSWS 而 丢失 的 报 文 段 数 

tcps pcbcachemiss PCB 高 速 缓存 匹配 失败 次 数 

ccps_persisttimeo 持续 定时 器 超时 次 数 

tcps.predack 对 ACK 报 文 首部 预测 的 正确 次 数 

tcps_preddat 对 数据 报 文 首部 预测 的 正确 次 数 

tcps_rcvackbyte 由 收 到 的 ACK 报 文 确认 的 发 送 字 节 数 

tcps, rcvackpack 收 到 的 ACK 报 文 数 

tcps_rcvacktoomuch 收 到 的 对 未 发 送 数据 进行 确认 的 ACK 报 文 数 

tcps rcvafterclose 连接 关闭 后 收 到 的 报 文 数 

tcps rcvbadoff 收 到 的 首部 长 度 无 效 的 报 文 数 ° 
tcps rcvbadsum 收 到 的 检验 和 错误 的 报 文 数 . 
tcps rcvbyte 连续 收 到 的 字 节 数 

tcps_rcvbyteafterwin TEE 23) 83 N CL SES] KAE c 

tcps rcvdupack 收 公 的 重复 AcK 报 文 的 次 数 

tcps_rcvaupbyte 在 完全 重复 报 文 中 收 到 的 字 节 数 

tcps rcvduppack AREER 

tcps rcvoobyte 收 到 失 序 的 字 节 数 

tcps_rcvoopacK 收 到 失 序 的 报 文 数 


tcps_rcvpack 顺序 接收 的 报 文 数 
tcps_rcvpackaEterwin 携带 数据 超出 滑动 窗口 通告 值 的 报 文 数 
tcps_rcvpartdupbyte 部 分 内 容重 复 的 报 文中 的 重复 字 节 数 
tcps, rcvpartduppack 部 分 数据 重复 的 报 文 数 


tcps rcvshort 长 度 过 短 的 报 文 数 . 
tcps rcvtotal 收 到 的 报 文 总 数 ° 
tcps rcvwinprobe 收 到 的 窗口 探测 报 文 数 

tcps_rcvwinupd 收 和 色 的 窗口 更 新 报 文 数 

tcps, rexmttimeo 重 传 超时 次 数 

tcps, rttupdated RTTA REER cd 

tcps_segstimed 可 用 于 RTT 测 算 的 报 文 数 

tcps_sndacks 发 送 的 纯 ACK 报 文 数 (数据 长 度 =0) 

tcps_sndbyte AREE K 

tcps, sndctrl 发 送 的 控制 (SYN、EFIN、RST) 报 文 数 (数据 长 度 =0) 

tcps, sndpack 发 送 的 数据 报 文 数 (数据 长 度 >0) 

tcps, sndprobe 发 送 的 窗口 探测 次 数 (等 待定 时 器 强行 加 入 1 字 节 数据 ) 

tcps, sndrexmitbyte 8 Umm rox ° 
tcps, sndrexmitpack 重 传 的 报 文 数 . 
tcps, sndtotal 发 送 的 报 文 总 数 . 
tcps, sndurg 只 携带 URG 标 志 的 报 文 数 (数据 长 度 =0) 

tcps, sndwinup 只 携带 窗口 更 新 信息 的 报 文 数 (数据 长 度 =0) 

tcps, timeoutdrop 由 于 重 传 超时 而 丢失 的 连接 数 


图 24-4 tcpstat 结 构 变 量 中 保存 的 TCP 统 计量 
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在 命令 行 输入 netstat-s， 系 统 将 输出 当前 TCP 的 统计 值 。 图 24-5 的 例子 显示 了 主机 连续 
运行 30 天 后 ， 各 统计 计数 器 的 值 。 由 于 某 些 统计 量 互相 关联 一 一 一 个 保存 数据 分 组 数目 ， 另 一 
个 保存 相应 的 字 节 数 一 一 图 中 做 了 一 些 简化 。 例 如 ， 表 中 第 二 行 Lcps_snd(pack, byte) 实 际 


表示 了 两 个 统计 量 ，tcps_sndpack 和 tcps_sndbyte。 


tcps_sndbyte 值 应 为 3 722 884 824 字 节 ， 而 不 是 -22 194 928 字 节 ， 平均 每 个 
数据 分 组 有 450 字 节 。 类 似 的 ，tcps_rcvackbyte 值 应 为 3 738 811 552 字 节 ， 而 不 
是 -21 264 360 字 节 ( 平 均 每 个 数据 分 组 565 字 节 )。 这 些 数据 之 所 以 被 错误 地 显示 ， 是 
因为 netstat 程 序 中 调用 printf 语 向 时 使 用 了 %d( 符 号 整 型 )， 而 非 名 ju( 无 符号 长 
整 型 )。 所 有 统计 量 均 定义 为 无 符号 长 整 型 ， 上 面 两 个 统计 量 的 值 已 接近 无 符号 32 位 


Ks) ETR(?-1z24 294 967 295), 





10,655,999 packets sent 
9,177,823 data packets (-22,194,928 bytes) 
257,295 data packets (81,075,086 bytes) retransmitted 
862,900 ack-only packets (531,285 delayed) 
229 URG-only packets 
3,453 window probe packets 
74,925 window update packets 
279,387 control packets 


8,801,953 packets received 
6,617,079 acks (for -21,264,360 bytes) 
235,311 duplicate acks 
0 acks for unsent data 
4,670,615 packets (324,965,351 bytes) rcvd in-sequence 
46,953 completely duplicate packets (1,549,785 bytes) 
22 old duplicate packets 
3,442 packets with some dup. data (54,483 bytes duped) 
77,114 out-of-order packets (13,938,456 bytes) 
1,892 packets (1,755 bytes) of data after window 
1,755 window probes 
175,476 window update packets 
1,017 packets received after close 
60,370 discarded for bad checksums 
279 discarded for bad header offset fields 
0 discarded because packet too short 
















144,020 connection requests 
92,595 connection accepts 
126,820 connections established (including accepts) 
237,743 connections closed (including 1,061 drops) 
110,016 embryonic connections dropped 


6,363,546 segments updated rtt (of 6,444,667 attempts) 
114,797 retransmit timeouts 

86 connection dropped by rexmit timeout 
1,173 persist timeouts 
16,419 keepalive timeouts 

6,899 keepalive probes sent 

3,219 connections dropped by keepalive 








733,130 correct ACK header predictions 
1,266,889 correct data packet header predictions 
1,851,557 cache misses 











图 24-5 TCP 统 计量 样本 


netstat -s 输出 tcpstat 成 员 
























tcps,sndtotal 

tcps snd(pack,byte) 

tcps sndrexmitípack,byte)] 
tcps.sndacks,tcps, delack 
tcps, sndurg 

tcps sndprobe 

tcps, sndwinup 

tcps, sndctr1l 










tcps, rcvtotal 
tcps, rcvack (pack, byte} 
tcps, rcvdupack 

tcps, rcvacktoomuch 

tcps, rcv(pack, byte] 

tcps rcvdupípack,byte) 

tcps pawsdrop 

tcps, rcvpartdupípack,byte) 
tcps, rcvoo(pack, byte} 

tcps, rcv(pack, byte)afterwin 
tcps rcvwinprobe 

tcps rcvwindup 

tcps, rcvafterclose 

tcps rcvbadsum 

tcps, rcvbadoff 

tcps rcvshort 








tcps, connattempt 
tcps, accepts 
tcps, connects 
tcps, closed,tcps. drops 
tcps conndrops 

tcps, (rttupdated,segstimed) 
tcps, rexmttimeo 

tcps timeoutdrop 

tcps persisttimeo 
tcps,keeptimeo 
tcps, keepprobe 
tcps keepdrops 














tcps, predack 
tcps preddat 
tcps. pcbcachemiss 
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24.2.3 SNMP 变 量 


图 24-6 列 出 了 SNMP TCP 组 中 定义 的 14 个 SNMP 简 单 变量 ， 以 及 与 它们 相对 应 的 
tcpstat 结 构 中 的 统计 量 。 前 四 项 的 常量 值 在 Net/3 中 定义 ， 计 数 器 tcpCurrEstab 用 于 保 
存 TCP PCB 表 中 Internet PCB 的 数目 。 

图 24-7 列 出 了 tcpTable， 即 TCP 监 听 表 (listener table )。 


SNMP% tà tcpstatJ& big, mS ut di 5 


tcpRtoAlgorithm 用 于 计算 重 传 定时 时 限 的 算法 : 

1= 共 他 ; 
2=RTO 为 固定 值 ; 
3«MIL-STD-1778[f] 3k B; 
4- Van Jacobson 的 算法 ; 

最 小 重 传 定时 时 限 ， 以 毫秒 为 单位 

最 大 重 传 定时 时 限 ， 以 毫秒 为 单位 

-1 可 支持 的 最 大 TCP 连 接 数 (-1 表 示 动 态 设 置 ) 


tcps_connattempt 从 CLOSED 转 换 到 SYN SENT 的 次 数 
LISTENER SISYN RCVDIDA 
tcps conndrops 从 SYN_SENT 或 SYN_RCVD 转 换 到 CLOSED 的 
次 数 + 从 SYN_RCVD 转 换 到 LISTEN 的 次 数 
tcpEstabResets tcps drops 从 ESTABLISHED 或 CLOSE_WAIT 和 转换 到 
( 见 正文 ) 当前 位 于 ESTABLISHED 或 CLOSE_WAIT 状 态 
的 连接 数 


ICI SCIRE 


tcpOutSegs tcps.sndtotal - 发 送 的 报 文 总 数 ， 减 去 重 传 报 文 数 


tcps sndrexmitpack 


tcpRetransSegs tcps sndrexmitpack 重 传 的 报 文 总 数 


tcpInErrs tcps_rcvbadsum + 收 芭 的 出 错 报 文 总 数 
tcps rcvbadoff + 

















tcps rcvshort 





图 24-6 tcp 组 中 的 简单 SNMP 变 量 














index = «tcpConnLocalAddress».«tcpConnLocalPort». «tcpConnRemAddress». «tcpConnRemPort» 


tcpConnState 连接 状态 : 1 = CLOSED, 2-LISTEN, 3 = SYN, SENT, 


t state 
4 = SYN RCVD, 5 = ESTABLISHED,6 = FIN. WAIT, 


7 FIN, WAIT 2, 8 = CLOSE. WAIT, 9-LAST ACK, 
10 = CLOSING, 11 = TIME, WAIT,12 = 删除 TCP 控 制 块 


tcpConnRemPort inp. fport 远 端 端口 号 


图 24-7 TCP 监 听 表 : tcpTable 中 的 变量 
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第 一 个 PCB 变 量 (t_state) 来 自 TCP 控 制 块 (图 24-13)， 其 他 四 个 变量 来 自 Internet PCB 
(图 22-4)。 
24.3 TCP 的 protosw 结 构 


图 24-8 列 出 了 TCP protosw 结 构 的 成 员 变 量 ， 它 定义 了 TCP 协 议 与 系统 内 其 他 协议 间 的 


交互 接口 。 
SOCK STREAM 


pr type 
pr. domain &inetdomain 
IPPROTO TCP(6) 
PR CONNREQUIRED!PR WANTRCVD 

































TCP 提 供 字 节 流传 输 服 务 
TCP 属 于 Internet 协 议 族 
填充 IP 首 部 的 ijp_p 字 段 
插口 层 标志 ， 协 议 处 理 中 忽略 
从 IP 层 接收 请 息 

TCP Ei RR 1E pk, Dd A08 n 
处 理 ICMP 错 误 的 控制 输入 国 数 
在 进程 中 响应 签 理 请 求 
在 进程 中 响应 通信 请 求 
TCP 初 始 化 

快 超时 函数 ， 每 200 ms 调用 一 次 
悍 超 时 函数 ， 每 500 ms 调用 次 
内 核 mbuf 耗 尽 时 调用 
TCP 协 议 忽 略 该 成 员 变 量 










pr. ptotocol 
pr tlags 

tcp input 
0 


tcp ctlinput 


pr input 









pr output 








pr ctlinput 













pr, ctloutput tcp ctloutput 







pr usrreg tcp usrreq 






pr init tcp init 





pr fasttimo tcp, fasttimo 





por slowtimo tcp slowtimo 






tcp drain 
Q- 


pr Grain 








pr sysctl 


图 24-8 TCP protosw 结 构 


24.4 TCP 的 首部 


tcphqdr 结 构 定 义 了 TCP 首 部 。 图 24-9 给 出 了 tcphdr 结 构 的 定义 ， 图 24-10 描 述 了 TCP 首 





tcp.h 
40 struct tcphdr ( 
41 u short th sport; /* source port */ 
42 u short th dport; /* destination port */ 
43 tcp seq th, seq; /* sequence number */ 
44 tcp seq th ack; /* acknowledgement number */ 
45 4$if BYTE ORDER == LITTLE, ENDIAN 
46 u_char th, x2:4, /* (unused) */ 
47 th off:4; /* data offset */ 
48 #endif 
49 #if BYTE ORDER -- BIG, ENDIAN . 
50 u char th off:4, /* data offset */ 
51 th x2:4; /* (unused) */ 
52 sendif 
53 u char th flags; /* ACK, FIN, PUSH, RST, SYN, URG */ 
54 u short th, win; /* advertised window */ 
55 u Short th sum; /* checksum */ 
56 u short th urp; /* urgent offset */ 
57 


图 24-9 tcphar 结 构 
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0 15 16 31 


th_sport th dport 
16 位 源 端 [全 16 位 日 的 端口 号 


th seq 
SUY 


th_ack 
BLATY S 


th_off th_x2 U|AIP|R|S|F th wi 
4 位 保留 RIClslslYl1I rwn 
首部 长 度 (614) GIKIHITININ 16 位 窗口 大 小 


th_sum _ th urp 
16 们 TCP 检验 和 16 位 紧急 数据 偏 移 芋 


选项 (如 果 有 ) 


数据 (如 果 有 ) 





图 24-10 TCP 首 部 及 可 选 数据 


大 多 数 RFC 文 档 ， 相 关 书 籍 (包括 卷 1) 和 接 下 来 要 讨论 的 TCP 实 现代 码 ， 都 把 
th_urp 称 为 “紧急 指针 (urgent pointer)”。 更 准确 的 名 称 应 该 是 “紧急 数据 偏 移 量 
(urgent offset)”， 因 为 这 个 字段 给 出 的 16 bit 无 符号 整数 值 ， 与 th_seg 序 号 字段 相 加 
后 ， 得 到 发 送 的 紧急 数据 最 后 一 个 八 位 组 的 32 bit 序 号 (关于 该 序号 应 该 是 紧急 数据 最 
后 一 个 字 节 的 序号 ， 或 者 是 紧急 数据 结束 后 的 第 一 个 字 节 的 序号 ， 一 直 存 在 着 争议 。 
但 就 我 们 目前 的 讨论 而 言 ， 这 一 点 无 关 紧 要 )。 图 24-13 中 ， TCP 代码 把 保存 紧急 数据 
最 后 一 个 八 位 组 的 32 bit 序 号 的 snd_up 正 确 地 称 为 “紧急 数据 发 送 指针 ”。 如 果 将 
TCP 首 部 的 16 bit 偏 移 量 也 称 为 “指针 ”"， 容 易 引 起 误解 。 在 练习 26.6 中 ， 我 们 重申 了 
“紧急 指针 ”和 “紧急 数据 偏 移 量 ” 间 的 区 别 。 

TCP 首 部 中 4 bit 的 首部 长 度 、 接 着 的 6 bit 的 保留 字段 和 6 bit 的 码 元 标志 ， 在 C 结 构 中 定义 
为 两 个 4 bit 的 比特 字段 ， 和 紧 跟 的 一 个 8 bit 字 节 。 为 了 处 理 两 个 比特 字段 在 8 bit 字 节 中 的 存放 
次 序 ，C 代 码 根据 不 同 的 主机 字 节 存储 顺序 使 用 了 #ifdet 语 句 。 

还 请 注意 ，TCP 中 称 4 bit 的 th_off 为 “首部 长 度 ”， 而 C 代 码 中 称 之 为 “数据 偏 移 量 ”。 
两 种 名 称 都 正确 ， 因 为 它 表示 TCP 首 部 的 长 度 ， 包 括 可 选项 ， 以 32 bit 为 单位 ， 也 就 是 指向 用 
户 数据 第 一 个 字 节 的 偏 移 量 。 

th_flags 成 员 变 量 包 括 6 个 码 元 标志 比特 ， 通 过 图 24-11 中 定义 的 名 称 读 写 。 

Net/3 中 ，TCP 首 部 通常 意味 着 “IP 首 部 + TCP 首 部 ”。tcp_input 处 理 收 到 的 IP 数 据 报 
和 tcp_output 构 造 待 发 送 的 IP 数 据 报 时 都 采用 了 这 一 思想 。 图 24-12 中 给 出 了 tcpiphar 结 
构 的 定义 ， 形 式 化 地 描述 了 组 合 的 IP/TCP 首 部 。 

38-58 ”图 23-19 给 出 的 jpov1ly 结 构 定 义 了 20 字 节 长 度 的 了 P 首 部 。 通 过 前 面 章 节 的 讨论 可 知 ， 
尽管 长 度 相 同 (20 字 节 )， 但 这 个 结构 并 不 是 一 个 真正 的 琴 首 部 。 
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TH ACK RUF Z(th ackMipk 
TH FIN RIXT € Bm 
TH PUSH | 接收 方 应 该 立即 将 数据 提交 给 应 用 程序 
TH_RST 连接 复位 
TH_SYN 序号 同步 (建立 连接 ) 
TH URG 紫 忽 数据 偏 移 量 (th_urp) 有 效 
图 24-11 th flags[ü 
38 struct tcpiphdr { Icpip.h 
39 struct ipovly ti i; /* overlaid ip structure */ 
40 struct tcphdr ti t; /* tcp header */ 
4l ): 
42 $define ti, next ti i.ih next 
43 #define ti prev ti i.ih prev 
44 #define ti x1 ti i.ih x1 
45 &$define ti pr ti i.ih pr 
46 #define ti len ti i.ih len 
47 #define ti src ti i.ih,.src 
48 £&define ti dst ti i.ih dst 
49 #define ti. sport ti t.th sport 
50 &define ti dport ti t.th dport 
51 tdefine ti seq ti t.th, seq 
52 t$define ti ack ti t.th ack 
53 #define ti, x2 ti C.th x2 
54 #define ti off ti t.th off 
55 &define ti flags ti t.th flags 
56 #define ti win ti t.th win 
57 #define ti. sum ti t.th, sum 
58 #define ti urp ti t.th urp 
Icpip.h 


图 24-12 tcpiphdr 结 构 定义 : 组 合 的 IPTCP 首 部 


24.5 TCP 的 控制 块 


在 图 22-1 中 我 们 看 到 ， 除 了 标准 的 Internet PCB 外 ，TCP 还 有 自己 专用 的 控制 块 ，tcpcb 


结构 ， 而 UDP 则 不 需要 专用 控制 块 


， 它 的 全 部 控制 信息 都 已 包含 在 Internet PCB 中 。 


TCP 控 制 块 较 大 ， 需 占用 140 字 节 。 从 图 22-1 中 可 看 到 ，Internet PCB 与 TCP 控 制 块 彼此 对 


应 ， 都 带 有 指向 对 方 的 指针 。 图 24 





41 struct tcpcb { 


-13 给 出 了 TCP 控 制 块 的 定义 。 


tcp_var.h 


42 struct tcpiphdr *seg_next; /* reassembly queue of received segments */ 
43 struct tcpiphdr *seg prev; /* reassembly queue of received segments */ 
44 short t state; /* connection state (Figure 24.16) */ 

45 short t timer(TCPT,NTIMERS]; /* tcp timers (Chapter 25) */ 

46 short t rxtshift; /* log(2) of rexmt exp. backoff */ 

47 short t rxtcur; /* current retransmission timeout (#ticks) */ 
48 short t dupacks; /* 4consecutive duplicate ACKs received */ 

49 u.short t maxseg; /* maximum segment size to send */ 

50 char t force; /* 1 if forcing out a byte (persist/OOB) */ 
51 u short t, flags; /* (Figure 24.14) */ 


图 24-13 tcpcb 结 构 : TCP 控 制 块 
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struct tcpiphdr *t, template; /* skeletal packet for transmit */ 
struct inpcb *t inpcb; /* back pointer to internet PCB */ 

/* 

* The following fields are used as in the protocol specification. 

* See RFC783, Dec. 1981, page 21. 


*/ 
/* send sequence variables */ 
tcp seq snd una; /* send unacknowledged */ 
tcp seq snd nxt; /* send next */ 
tcp seq snd up: /* send urgent pointer */ 
tcp seq snd wll; /* window update seg seq number */ 
tcp.seq snd wl2; /* window update seg ack number */ 
tcp seq iss; /* initial send sequence number */ 
u long snd wnd; /* send window */ 
/* receive sequence variables */ 
u long rcv, wnd; /* receive window */ 
tcp seq rcv nxt; /* receive next */ 
tcp seq rcv, up; /* receive urgent pointer */ 
tcp.seq irs; /* initial receive sequence number */ 
/* 
* Additional variables for this implementation. 
*/ 
/* receive variables */ 
tcp,.seq rcv adv; /* advertised window by other end */ 
/* retransmit variables */ 
tcp.seq snd max; /* highest sequence number sent; 


* used to recognize retransmits */ 
/* congestion control (slow start, source quench, retransmit after loss) */ 
u long  snd, cwnd; /* congestion-controlled window */ 
u long Ssnd ssthresh; /* send. cwnd size threshhold for slow start 
* exponential to linear switch */ 
/* 
* transmit timing stuff. See below for scale of srtt and rttvar. 
* "Variance" is actually smoothed difference. 


*/ 

short t idle; /* inactivity time */ 

short t rtt; /* round-trip time */ 

tcp seq t rtseq; /* sequence number being timed */ 

short t srtt; /* smoothed round-trip time */ 

short t rttvar; /* variance in round-trip time */ 

u short t rttmin; /* minimum rtt allowed */ 

u long max sndwnd; /* largest window peer has offered */ 
/* out-of-band data */ 

char t oobflags; /* TCPOOB HAVEDATA, TCPOOB,HADDATA */ 

char t iobc; /* input character, if not SO OOBINLINE */ 

short t softerror; /* possible error not yet reported */ 
/* RFC 1323 variables */ 

u_char snd scale; /* scaling for send window (0-14) */ 

u char rcv, scale; /* scaling for receive window (0-14) */ 

u_char request, r, scale; 7* our pendàing window scale */ 

u char requested s scale; /* peer's pending window scale */ 

u long ts recent; /* timestamp echo data */ 

u long ts recent age; /* when last updated */ 

tcp.seq last ack sent; /* sequence number of last ack field */ 
Kdefine intotcpcb(ip) ((struct tcpcb *)(ip)-»inp. ppcb) 
idefine sototcpcb(so) (intotcpcb(sotoinpcb(so))) 


tcp. var.h 
图 24-13 (£x) 
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现在 暂 不 讨论 上 述 成 员 变 量 的 具体 含义 ， 在 后 续 代 码 中 遇 到 时 再 详细 分 析 。 
图 24-14 列 出 了 t_flags 变 量 的 可 选 值 。 


TF ACKNOW 立即 发 送 ACK 

TF. DELACK 延迟 发 送 ACK 

TF NODELAY EHI AE X JH PUR, IRAE GE UA CERE CSS IENagle PEE) 
TF NOOPT 不 使 用 TCP 选 项 ( 永 不 填充 TCP 选 项 字段 ) 


TF SENTFIN FINU E X 

TF RCVD SCALE | 对 端 在 SYN 报 文中 发 送 窗口 变化 选项 时 置 位 
TF RCVD.TSTMP | 对 端 在 SYN 报 文中 发 送 时 问 怕 选项 时 里 位 
TF REQ SCALE | 已 经 /将 要 在 SYN 报 文中 请 求 窗口 变化 选项 
TF REQ TSTMP | 山 以 /将 此 在 SYN 中 请 求 时 间 蕉 选项 





图 24-14 t_flags 取 值 


24.6 TCP 的 状态 变迁 图 


TCP 协 议 根据 连接 上 到 达 报 文 的 不 同类 型 ， 采 取 相 应 动作 ， 协 议 规程 可 抽象 为 图 24-15 所 示 
的 有 限 状 态 变迁 图 。 读 者 在 本 书 的 廊 页 前 也 可 找到 这 张 图 ， 以 便 在 阅读 有 关 TCP 的 章节 时 参考 。 

图 中 的 各 种 状态 变迁 组 成 了 TCP 有 限 状 态 机 。 尽 管 TCP 协 议 允 许 从 LISTEN 状 态 直接 变迁 
到 SYN_SENT 状 态 ， 但 使 用 SOCKET API 编 程 时 这 种 变迁 不 可 实现 (调用 1isten 后 不 可 以 调 
Riconnect). 

TCP 控 制 块 的 成 员 变 量 t_state 保 存 一 个 连接 的 当前 状态 ， 可 选 值 如 图 24-16 所 示 。 

图 中 还 定义 了 tcp_outflags 数 组 ， 保 存 了 处 于 对 应 连接 状态 时 tcp_output 将 使 用 的 

图 24-16 还 列 出 了 与 符号 常量 相对 应 的 数值 ， 因 为 在 代码 中 将 利用 它们 之 间 的 数值 关系 。 
例如 ， 有 下 面 两 个 宏 定 义 : 

#define TCPS HAVERCVDSYN(s) ((s)»-TCPS SYN, RECEIVED) 

define TCPS HAVERCVDFIN(s) ((s)»-TCPS TIME WAIT) 


类 似 地 ， 连 楼 未 建立 时 ， 即 t_state 小 于 TCPS_ESTABLISHED 时 ，tcp_notify 处 理 

ICMP 差 错 的 方式 也 不 同 。 
TCPS_HAVERCVDSYN 的 命名 是 正确 的 ， 但 TCPS_HAVERCVDFIN 则 可 能 引起 误 

解 ， 因 为 在 CLOSE_WAIT、CLOSING 和 LAST_ACK 状 态 也 会 收 到 FIN。 我 们 将 在 第 

203 P iB E EZ. 

当 进程 调用 shutdown 且 第 二 个 参数 设 为 1 时 ， 称 为 “ 半 关 闭 *"。TCP 发 送 FIN， 但 允许 进 
程 在 同一 端口 上 继续 接收 数据 ( 卷 1 的 18.5 节 中 举例 介绍 了 TCP 的 半 关 闭 )。 

例如 ， 尽 管 图 24-15 中 只 在 ESTABLISHED 状 态 标注 了 “数据 传输 ”， 但 如 果 进 程 执行 了 
“ 半 关 闭 "”， 则 连接 变迁 到 FEIN_WAIT_1 状 态 和 其 后 的 FIN_WAIT_2 状 态 ， 在 这 两 个 特定 状态 中 ， 
进程 仍然 可 以 接收 数据 。 
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appl 被 动 打开 


send: < 无 > 





send: SYN, ACK 
同时 打开 
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被 动 关 闭 





主动 关闭 
一 一 > 下 常情 况 下 ， 客 户 端 的 状态 变迁 
一 一 一 -9 上 常情 况 下 ， 服 务 器 端的 状态 变 于 
appl: 应 用 程序 执行 操作 引起 的 状态 变迁 
recv: 接收 报 文 引起 的 状态 变迁 
send: 状态 变迁 中 发 送 的 报 文 


图 24-15 TCP 状 态 变迁 图 


24.7 TCP 的 序号 


TCP 连 接 上 传输 的 每 个 数据 字 节 ， 以 及 SYN、FIN 等 控制 报 文 都 被 赋予 一 个 32 bit 的 序号 。 
TCP 首 部 的 序号 字段 (图 24-10) 填 充 了 报 文 段 第 一 个 数据 字 节 的 32 bit 的 序号 ， 确 认 号 字段 填充 


#24% TCP: figs — 647 


了 发 送 方 希望 接收 的 下 一 序号 ， 确 认 已 正确 接收 了 所 有 序号 小 于 等 于 确认 号 减 1 的 数据 字 节 。 
换言之 ， 确 认 号 是 ACK 发 送 方 等 待 接收 的 下 一 序号 。 只 有 当 报 文 首部 的 ACK 标 志 置 位 时 ， 确 
认 序号 才 有 效 。 读 者 将 看 到 ， 除 了 在 主动 打开 首次 发 送 SYN 时 (SYN_SENT 状 态 ， 参 见 图 24- 
16 中 的 tkcp_outflags [21]) 或 在 某 些 RST 报 文 段 中 ，ACK 标 志 总 是 被 置 位 的 。 
































TCPS CLOSED X TH RST|TH ACK 
TCPS LISTEN 监听 连接 请 求 (被 动 打开 ) 0 

TCPS, SYN SENT 出 发 送 SYN( 主 动 打 开 ) TH_SYN 

TCPS, SYN. RECEIVED 岂 发 送 并 接收 SYN; 等 待 ACK TH SYN| TH ACK 
TCPS ESTABLISHED 连接 建立 (数据 传输 ) TH_ACK 









已 收 到 FIN， 等 待 应 用 程序 关闭 

己 关 闭 ， 发 送 FIN， 等 待 ACK 和 FIN 
同 叶 关闭 ， 等 待 ACK 

收 色 的 FIN 已 关闭 ; 等 待 ACK 

世 关 闭 ， 等 待 FIN 

主动 关闭 后 2MSL 等 待 状态 


TH ACK 
TH FIN|TH ACK 
TH FIN|TH ACK 
TH FINITH ACK 
TH ACK 
TH ACK 


TCPS CLOSE WAIT 
TCPS FIN WAIT I 
TCPS CLOSING 
TCPS LAST ACK 
TCPS FIN WAIT 2 
TCPS TIME WAIT 
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图 24-16 t_state 取 值 


由 于 TCP 连 接 是 全 双 工 的 ， 每 一 端 都 必须 为 两 个 方向 上 的 数据 流 维护 序号 。TCP 控 制 块 中 
(图 24-13) 有 13 个 序号 : 8 个 用 于 数据 发 送 (发 送 序号 空间 )，5 个 用 于 数据 接收 (接收 序号 空间 )。 

图 24-17 给 出 了 发 送 序号 空间 中 4 个 变量 间 的 关系 : snd_wnd、snd_una、snd_nxt 和 
snd_max。 这 个 例子 列 出 了 数据 流 的 第 !~ 第 11 字 节 。 


snd, wnd = 6: 提供 的 窗口 








(由 接收 方 通告 ) 
一 一 一 一 一 一 一 一 二 
可 用 窗口 
———r7 
1 2 3 4 5 6 | 7 8 9 10 11 
— re Rm 一 一 一 TAT 
zl 尚 h i 
发 送 开 忆 确认 PHI p exa 
snd una-4 snd nxt-z7 
di RUP f A 下 一 个 发 送 序 号 
过 的 序号 
snd max=7 
最 大 发 送 序号 
图 24-17 发 送 序 号 空间 举例 
一 个 有 效 的 ACK 序 号 必须 满足 : 


snd una < 人 确认 序号 <=- snd max 

图 24-17 的 例子 中 ， 一 个 有 效 ACK 的 确认 号 必须 是 5、6 或 7。 如 果 确 认 号 小 于 或 等 于 
sndq_una， 则 是 一 个 重复 的 ACK。 它 确认 了 已 确认 过 的 八 位 组 ,否则 snd_una 不 会 递增 超过 
那些 序号 。 
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tcp_output 中 有 多 处 用 到 下 面 的 测试 ， 如 果 正 发 送 的 是 重 传 数据 则 表达 式 为 真 : 


snd nxt < snd max 
图 24-18 给 出 了 图 24-17 中 连接 的 另 一 端 ， 接收 序号 空间 ， 图 中 假定 还 未 收 到 序号 为 4、5、 
6 的 报 文 ， 标 出 了 三 个 变量 rcv_nxt、rcv_wnd 和 rcv_adv。 


rcv_wnd = 6: 接收 窗口 


(向 发 送 方 通告 ) 
TCP 已 确认 的 序号 
不 允许 接收 的 序号 
rcv nxt-4 rcv adv -10 
KNERT V 通告 序号 最 大 值 加 1 


图 24-18 接收 序号 空间 举例 


如 果 接 收报 文 段 中 携带 的 数据 落 在 接收 窗口 内 ， 则 该 报 文 段 是 一 个 有 效 报 文 段 。 换 言 之 ， 
下 面 两 个 不 等 式 中 至 少 要 有 一 个 为 真 。 

rcv nxt <=- 报 文 段 起 始 序号 ”< rcv nxt + rcv_wnd 

rcv nxt <= 报 文 段 终止 序 导 < rcv nxt + rcv .wnd 


报 文 段 起 始 序 号 就 是 TCP 首 部 的 序号 字段 ，ti_seq。 终 止 序号 是 序号 字段 加 上 TCP 数 据 


长 度 后 减 1。 
例如 ， 图 24-19 中 的 TCP 报 文 段 ， 携 带 了 图 24-17 中 发 送 的 三 个 字 节 ， 序 号 分 别 是 4、5 和 6。 


e 63 字 节 IP 数 据 报 一 一 一 一 
T m TT 
了 8 


111 





图 24-19 TCP 报 文 段 在 IP 数 据 报 中 传输 
假定 IP 数 据 报 中 有 8 字 节 的 IP 任 选项 和 12 字 节 的 TCP 任 选项 。 图 12-20 列 出 了 各 有 关 变 量 的 
取 值 。 


IP 首 部 +IP 任 选项 长 度 ， 以 32 bit 为 单位 (=28 字 节 ) 
了 数据 报 长 度 ， 以 字 节 为 单位 (20+8 +20+12+3) 


TCP 首 部 +TCP 任 选项 长 度 ， 以 32 bit 为 单位 (=32 字 节 ) 

用 户 数据 第 一 个 字 节 的 序号 

TCP 数 据 的 字 节 数 : ip_len- (ip_hlx4)-(ti_off x4) 
用 户 数据 最 后 -个 字 节 的 序号 : ti_seq+ti_len-l 





图 24-20 图 24-19 中 各 变量 的 取 值 
ti_len 并 非 TCP 首 部 的 字段 ， 而 是 在 对 接收 到 的 首部 计算 检验 和 及 完成 验证 之 后 ， 根 据 
图 24-20 中 的 算式 得 到 的 结果 ， 存 储 到 外 加 的 IP 结 构 中 (图 24-12)。 图 中 最 后 一 个 值 并 不 存储 到 
变量 中 ， 而 是 在 需要 时 直接 从 其 他 值 中 通过 计算 得 到 。 
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1. 序号 取 模 运算 

TCP 必 须 处 理 的 一 个 问题 是 序号 来 自 有 限 的 32 位 取 值 空间 : 0~4 294 967 295。 如 果 某 个 
TCP 连 接 传输 的 数据 量 超过 22 字 节 ， 序 号 从 4 294 967 295 回 绕 到 0， 将 出 现 重复 序号 。 

即使 传输 数据 量 小 于 22 字 节 ， 仍 可 能 遇 到 同样 的 问题 ， 因 为 连接 的 初始 序号 并 不 一 定 从 0 
开始 。 各 数据 流 方向 上 的 初始 序号 可 以 是 0~4 294 967 295 之 间 的 任何 值 。 这 个 问题 使 序号 复 
杂 化 。 例 如 ， 序 号 1 可 能 大 于 序号 4 294 967 295. 

在 tcp .h 中 ，TCP 序 号 定义 为 unsigned long: 


typedef ai long tcp seq; 


图 24-21 定 义 了 4 个 用 于 序号 比较 的 宏 。 





. : tcp. seq.h 
40 $define SEQ LT(a,b) ((int)((a)-(b)) < 0) 
41 4$define SEQ LEQ(a,b) ((int)((a)-(b)) <= 0) 
42 #define SEQ GT(a,b) ((int)((a)-(b)) > 0) 
43 #define SEQ GEQ(a,b) ((int)((a)-(b)) >= 0) 
tcp seq.h 


图 24-21 TCP 序 号 比较 宏 


2. 举例 一 一 序号 比较 ^ 

下 面 这 个 例子 说 明了 TCP 序 号 的 操作 方式 。 假 定 序号 只 有 3 bit，0~7。 图 24-22 列 出 了 全 部 
8 个 序号 和 相应 的 二 进 制 补 码 (为 求 二 进 制 补 码 ， 将 二 进 制 码 中 的 所 有 0 变 为 1， 所 有 1 变 为 0， 
最 后 再 加 1)。 给 出 补 码 形式 ， 是 因为 a-b =a+(b 的 补 码 )。 


110 111 
101 110 
100 101 

100 
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图 24-22 3 bit 序 号 举例 
表 中 最 后 三 栏 分 别 是 0-x、1-x 和 2-x。 在 这 三 栏 中 ， 如 果 定 义 计算 结果 是 带 符号 整数 ( 注 
意图 24-21 中 的 四 个 宏 ， 计 算 结 果 全 部 强制 转换 为 int)， 那 么 最 高 位 为 1 表示 值 小 于 0 
(SEQ_LT 宏 )， 最 高 位 为 0 且 值 不 为 0 表示 大 于 0 (SEC_GT 宏 )。 最 后 三 栏 中 以 横 线 分 隔 开 四 个 负 


值 和 四 个 非 负 值 。 
请 注意 图 24-22 中 的 第 四 栏 (标注 “0-x”)， 可 看 出 0 小 于 1、2、3 和 4( 最 高 位 比特 为 )， 而 
0 大 于 5、6 和 7( 最 高 位 比特 为 0 且 结 果 非 0)。 图 24-23 显 示 了 这 种 关系 。 


5 6 7 [0] 1 2 3 4 


0 大 十 这 些 序号 0 小 于 这 些 序号 
«&———— —— ————» 


图 24-23 3 bit 的 TCP 序 号 的 比较 
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图 24-22 中 的 第 五 栏 (1-x) 也 存在 类 似 的 关系 ， 如 图 24-24 所 示 。 


6 7 0 2 3 4 5 


1 大 十 这 些 序号 1 小 十 这 些 序号 
图 24-24 3 bit 的 TCP 序 号 的 比较 
图 24-25 是 上 面 两 图 的 另 一 种 表示 形式 ， 使 用 圆 环 强调 了 序号 的 回 绕 现 象 。 





图 24-25 图 24-23 和 图 24-24 的 男 一 种 表示 形式 


就 TCP 而 言 ， 通 过 序号 比较 来 确定 给 定 序号 是 新 序号 或 重 传 序号 。 例 如 ， 在 图 24-24 的 例 
子 中 ， 如 果 TCP 正 等 待 的 序号 为 1， 但 到 达 序 号 为 6， 通 过 前 面 介绍 的 计算 可 知 6 小 于 1， 从 而 
判定 这 是 重 传 的 数据 ， 可 予以 丢弃 。 但 如 果 到 达 序 号 为 5， 因 为 5 大 于 1，TCP 判 定 这 是 新 数据 ， 
予以 保存 ， 并 继续 等 待 序号 为 2、3 和 4 的 八 位 组 (假定 序号 为 5 的 数据 字 节 落 在 接收 窗口 内 )。 

图 24-26 扩 展 了 图 24-25 中 左边 的 圆 环 ， 用 TCP 32 bit 的 序号 替代 了 3 bit 的 序号 。 
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图 24-26 与 序号 0 比较 : 采用 32 bit 序 号 
图 24-26 右 边 的 圆 环 强调 了 32 bit 序 号 空间 的 一 半 有 22 个 可 用 数字 。 


24.8 tcp initi 


系统 初始 化 时 ，domaininit 国 数 调用 TCP 的 初始 化 函数 : tcp init (图 24-27) 。 

1. 设 定 初 始 发 送 序号 

初始 发 送 序号 (SS)，tcp_iss， 被 初始 化 为 1。 请 注意 ， 代 码 注释 指出 ， 这 是 错误 的 。 后 
面 讨论 TCP 的 “平静 时 间 (quite time)” 时 ， 将 简单 介绍 这 一 选择 的 原因 。 请 读者 自行 与 图 7-23 
中 耳 标 识 符 的 初始 化 做 比较 ， 后 者 使 用 了 当天 的 时 钟 。 
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13 void tcp subr.c 
44 tcp init() 
45 ( 
46 tcp iss - 1; /* wrong */ 
47 tcb.inp,next = tcb.inp prev = &tcb; 
48 if (max protohdr « sizeof(struct tcpiphdr)) 
49 max protohdr = sizeof (struct tcpiphdr); 
50 if (max linkhdr « sizeof(struct tcpiphdr) » MHLEN) 
51 panicí("tcp init"); ` 
52 } 
tcp subr.c 


图 24-27 tcp initH 


2. TCP Internet PCB && f 32 45 4t, 

PCB 首 部 (tcb) 的 previous 指 针 和 next 指 针 都 指向 自己 ， 这 是 一 个 空 的 双向 链表 。tcb PCB 
的 其 余 成 员 均 初始 化 为 0( 所 有 未 明确 初始 化 的 全 局 变量 均 设 为 0)。 事 实 上 ， 除 链表 外 ， 在 该 
PCB 首 部 中 只 用 了 一 个 字段 inp_1port: 下 一 个 分 配 的 TCP 临 时 端口 号 。TCP 使 用 的 第 一 个 
临时 端口 号 应 为 1024， 练 习 22.4 的 解答 中 给 出 了 原因 。 

3. 计算 最 大 协议 首部 长 度 

到 目前 为 止 ， 讨 论 过 的 协议 首部 的 长 度 最 大 不 超过 40 字 节 ，max_protohdr 设 为 40( 组 合 
的 IP/TCP 首 部 长 度 ， 不 带 任 何 可 选项 )。 图 7-17 定 义 了 该 变量 。 如 果 max__1inkhdr (通常 为 
16) 加 40 后 大 于 放 入 单个 mbuf 中 带 首 部 的 数据 报 的 数据 长 度 (100 字 节 ， 图 2-7 中 的 MHLEN)， 内 
核 将 告警 。 


MSL 和 平静 时 间 的 概念 


TCP 协 议 要 求 如 果 主 机 凯 涡 ， 且 没 能 保存 打开 TCP 连 接 上 最 后 使 用 的 序号 ， 则 重启 后 在 一 
个 MSL(2 分 钟 ， 平 静 时 间 ) 内 ， 不 能 发 送 任何 TCP 报 文 段 。 目 前 ， 基 本 没有 TCP 实 现 能 够 在 系 
统 崩溃 或 操作 员 关 机 时 保存 这 些 信 息 。 

MSL 是 最 大 报 文 段 生存 时 间 (maximum segment lifetime)， 指 任何 报 文 段 被 丢弃 前 在 网 络 
中 能 够 存在 的 最 大 时 间 。 不 同 的 实现 可 选择 不 同 的 MSL 。 连 接 主动 关闭 后 ， 将 在 
CLOSE_WAIT 状 态 等 待 2 个 MSL 时 间 ( 图 24-15)。 

RFC 793(Postel 1981c) 建 议 MSL 设 定 为 2 分 钟 ， 但 Net/3 实 现 中 MSL 设 为 30 秒 (图 

25-3 中 定义 的 常量 TCPTV_MSL)。 


如 果 报 文 段 在 网 络 中 出 现 延 迟 ， 协 议会 出 现 问题 (REFC 793 称 之 为 漫游 重复 (wandering 
duplicatej)。 假 定 NeU3 系 统 启 动 时 FEcp_iss 置 为 1( 图 24-27)， 经 过 一 段 时 间 ， 在 序号 刚 删 回 绕 
时 系统 崩溃 。 后 面 25.5 节 中 将 介绍 ，tcp_i ss 每 秒 增加 128 000， 即 重启 后 需 经 过 9.3 小 时 序号 
才 会 回 绕 。 此 外 ， 每 发 送 一 个 connect，tcp_iss 将 增加 64 000， 因 此 序号 回 绕 时 间 必 然 早 
于 9.3 小 时 。 下 面 的 例子 说 明了 老 的 报 文 段 怎样 被 错误 地 发 送 到 现在 的 连接 上 。 

1) 一 个 客户 和 服务 器 建立 了 一 个 连接 。 客 户 的 端口 号 是 1024， 发 送 了 一 个 序号 为 2 的 报 文 
段 。 该 报 文 息 在 传送 途中 陷入 路 径 循环 ， 未 能 到 达 服 务 器 。 这 个 报 文 段 成 为 “漫游 重复 ” 报 
文 段 。 
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2) 客户 重 发 该 报 文 段 ， 序 号 依旧 为 2。 重 发 报 文 段 到 达 服 务 器 。 

3) 客户 关闭 连接 。 

4) 客户 主机 崩溃 。 

5) 客户 主机 在 崩溃 后 40 秒 重启 ，TCP 初 始 化 tcp_iss 为 1。 

6) 同一 客户 和 同一 服务 器 之 间 立 即 建立 了 一 条 新 的 连接 ， 使 用 了 同样 的 端口 号 : 客户 端 
口号 为 1024， 服 务 器 方 依然 是 其 预知 的 端口 号 。 客 户 发 送 的 SYN 中 初始 序号 置 为 1。 这 条 新 的 
使 用 同样 端口 对 的 连接 称 为 原 有 连接 的 化 身 (incarnation)。 

7) 步 育 1 中 的 宴 游 重复 报 文 段 最 终 到 达 服 务 器 ， 并 被 认为 是 新 建 连接 中 的 合法 报 文 段 ， 尽 
管 它 实 际 上 属于 原 有 连接 。 

图 24-28 列 出 了 上 述 步 又 发 生 的 时 间 顺 序 。 

EUR 1 一 一 客户 发 送 序 号 为 2 的 数据 报 文 (成 为 漫游 报 文 ) -~ ----- = 
2- 客户 重 传 序号 为 2 的 数据 报 文 ， 到 达 服 务 器 
3 一 上 客户 关闭 了 与 服务 器 的 连接 
4 一 一 '& Pii BUD UR 


« MSL 


5—— 客户 主机 重启 ，ISS 设 定 为 1 
6—L— 客户 服务 器 建立 原 有 连接 的 化 身 
7—L- 步 辣 [的 寓 游 重复 报 文人 到 达 服 务 器 人 --------- 3 


时 间 
图 24-28 示例 : 旧 报 文 段 到 达 原 有 连接 的 化 身 

即使 系统 重启 后 ，TCP 通 过 当前 时 钟 计算 ISS， 问 题 同 样 存在 。 无 论 原 有 连接 的 ISS 设 为 
多 少 ， 由 于 序号 会 回 绕 ， 完 全 有 可 能 重启 后 新 建 连接 的 ISS 接 近 等 于 重启 前 原 有 连接 最 后 使 用 
的 序号 。 

除了 保存 重启 前 所 有 已 建 连接 的 序号 ， 解 决 这 个 问题 的 唯一 方法 就 是 重启 后 TCP 在 MSL 
内 保持 平静 (不 发 送 任何 报 文 段 )。 尽 管 问题 有 可 能 出 现 ， 但 绝 大 多 数 TCP 中 并 未 实现 相应 的 解 
决 方法 ， 因 为 多 数 主机 仅 重启 时 间 就 要 长 于 MSL。 


24.9 小 结 


本 章 概要 介绍 了 接 下 来 的 6 章 中 将 要 讨论 的 TCP 源 代码 。TCP 为 每 条 连接 建立 自己 的 控制 
块 ， 保 存 该 连接 的 所 有 变量 和 状态 信息 。 

定义 了 TCP 的 状态 变迁 图 ，TCP 在 哪些 条 件 下 从 一 个 状态 变迁 到 另 一 个 状态 ， 每 次 变迁 过 
程 中 发 送 和 接收 了 哪些 报 文 段 。 状 态 变 迁 图 还 显示 了 连接 建立 和 终止 的 过 程 。 在 后 续 TCP 讨 
论 中 会 经 常 引 用 该 图 。 

TCP 连 接 上 传输 的 每 个 数据 字 节 都 有 相应 的 序号 ，TCP 在 连接 控制 块 中 维护 多 个 序号 : 有 
些 用 于 发 送 ， 有 些 用 于 接收 (TCP 工 作 于 全 双 工 方式 )。 由 于 序号 来 自 有 限 的 32 bit 空 间 ， 会 从 
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最 大 值 回 绕 到 0。 本 章 解 释 了 如 何 使 用 小 于 和 大 于 测试 来 比较 序号 ， 在 后 续 的 TCP 代 码 中 将 不 
断 遇 到 序号 的 比较 。 

最 后 介绍 了 最 简单 的 TCP 函 数 ，tcp_init， 完 成 对 Internet PCB 的 TCP 链 表 的 初始 化 。 
此 外 ， 还 讨论 了 初始 发 送 序 号 的 选取 问题 。 
习题 

24.1 研究 图 24-5 中 的 统计 数据 ， 计 算 每 条 连接 上 发 送 和 接收 的 平均 字 节 数 。 


24.2 在 tcp_init 中 ， 内 核 告 警 是 否 合理 ? 
24.3 执行 netstat -a， 了 解 你 的 系统 当前 有 多 少 个 活跃 的 TCP 端 点 。 


第 25 章 TCP 的 定时 器 


25.1 引言 


从 本 章 起 ， 我 们 开始 详细 讨论 TCP 的 实现 代码 ， 首 先 熟 悉 一 下 在 绝 大 多 数 TCP 肖 数 里 都 会 
遇 到 的 各 种 定时 器 。 

TCP 为 每 条 连接 建立 了 七 个 定时 器 。 按 照 它 们 在 一 条 连接 生存 期 内 出 现 的 次 序 ， 简 要 介 
绍 如 下 。 

1)“ 连 接 建 立 (connection establishment)” 定 时 器 在 发 送 SYN 报 文 段 建立 一 条 新 连接 时 启 
动 。 如 果 没 有 在 75 秒 内 收 到 响应 ， 连 接 建 立 将 中 止 。 

2)“ 重 传 (retransmission)” 定 时 器 在 TCP 发 送 数据 时 设 定 。 如 果 定 时 器 已 超时 而 对 端的 确 
认 还 未 到 达 ，TCP 将 重 传 数 据 。 重 传 定 时 器 的 值 ( 即 TCP 等 待 对 端 确认 的 时 间 ) 是 动态 计算 的 ， 
取决 于 TCP 为 该 连接 测量 的 往返 时 间 和 该 报 文 段 已 被 重 传 的 次 数 。 

3)“ 延 迟 ACK(delayed ACK)” 定 时 器 在 TCP 收 到 必须 被 确认 但 无 需 马 上 发 出 确认 的 数据 
时 设 定 。TCP 等 待 200 ms 后 发 送 确 认 响 应 。 如 果 ， 在 这 200 ms 内 ， 有 数据 要 在 该 连接 上 发 送 ， 
延迟 的 ACK 响 应 就 可 随 着 数据 一 起 发 送 回 对 端 ， 称 为 撒 带 确认 。 

4)“ 持 续 (persist )” 定 时 器 在 连接 对 端 通告 接收 窗口 为 0， 阻 止 TCP 继 续 发 送 数据 时 设 定 。 
由 于 连接 对 端 发 送 的 窗口 通告 不 可 靠 ( 只 有 数据 才 会 被 确认 ，ACK 不 会 被 确认 )， 人 允许 TCP 继 续 
发 送 数据 的 后 续 窗 口 更 新 有 可 能 丢失 。 因 此 ， 如 果 TCP 有 数据 要 发 送 ， 但 对 端 通告 接收 窗口 
为 0， 则 持续 定时 器 启动 ， 超 时 后 向 对 端 发 送 1 字 节 的 数据 ， 判 定 对 端 接收 窗口 是 否 已 打开 。 
与 重 传 定时 器 类 似 ， 持 续 定时 器 的 值 也 是 动态 计算 的 ， 取 决 于 连接 的 往返 时 间 ， 在 5 秒 到 60 秒 
之 间 取 值 。 

5)“ 保 活 (keepalive)” 定 时 器 在 应 用 进程 选取 了 插口 的 SO0_KEEPALIVE 选 项 时 生效 。 如 
果 连 接 的 连续 空闲 时 间 超 过 2 小 时 ， 保 活 定时 器 超时 ， 向 对 端 发 送 连接 探测 报 文 段 ， 强 迫 对 端 
响应 。 如 果 收 到 了 期 待 的 响应 ，TCP 可 确定 对 端 主机 工作 正常 ， 在 该 连接 再 次 空闲 超过 2 小 时 
之 前 ，TCP 不 会 再 进行 保 活 测试 。 如 果 收 到 的 是 其 他 响应 ，TCP 可 确定 对 端 主机 已 重启 。 如 果 
连续 若干 次 保 活 测试 都 未 收 到 响应 ，TCP 就 假定 对 端 主机 已 崩溃 ， 尽 管 它 无 甘 区 分 是 主机 故 
障 (例如 ， 系 统 崩溃 而 尚未 重启 )， 还 是 连接 故障 (例如 ， 中 间 的 路 由 器 发 生 故 障 或 电话 线 断 
了 )。 

6) FIN_WAIT_2 定 时 器 。 当 某 个 连接 从 FIN_WAIT_1 状 态 变迁 到 FIN_WAIT_2 状 态 (图 24-15)， 
并 且 不 能 再 接收 任何 新 数据 时 (意味 着 应 用 进程 调用 了 close， 而 非 shutaown， 没 有 利用 
TCP 的 半 关 闭 功能 )，FIN_WAIT_2 定 时 器 启动 ， 设 为 10 分 钟 。 定 时 器 超时 后 ， 重 新 设 为 75 秒 ， 
第 二 次 超时 后 连接 被 关闭 。 加 入 这 个 定时 器 的 目的 是 为 了 避免 如 果 对 端 一 直 不 发 送 FIN， 某 个 
连接 会 永远 滞留 在 FIN_WAIT_2 状 态 。 

7) TIME_WAIT 定 时 器 ， 一 般 也 称 为 2MSL 定 时 器 。2MSL 指 两 倍 的 MSL，24.8 节 定义 的 最 
大 报 文 段 生存 时 间 。 当 连接 转移 到 TIME_WAIT 状 态 ， 即 连接 主动 关闭 时 ， 定 时 器 启动 。 卷 1 
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的 18.6 节 详细 说 明了 需要 2MSL 等 待 状态 的 原因 。 连 接 进入 TIME_WAIT 状 态 时 ， 定 时 器 设 定 
为 1 分 钟 (Net/3 选 用 30 秒 的 MSL)， 超 时 后 ，TCP 控 制 块 和 Internet PCB 被 删除 ， 端 口号 可 重新 
使 用 。 

TCP 包 括 两 个 定时 器 函数 ， 一 个 函数 每 200 ms 调用 一 次 (快速 定时 器 ); 另 一 个 函数 每 500 
ms 调用 一 次 ( 慢 速 定时 器 )。 延 迟 ACK 定 时 器 与 其 他 6 个 定时 器 有 所 不 同 : 如 果 某 个 连接 上 设 定 
了 延迟 ACK 定 时 器 ， 那 么 下 一 次 200 ms 定时 器 超时 后 ， ERA ATREA AES 
间 必 须 在 0~200 ms 之 间 )。 其 他 的 定时 器 每 500 ms 递减 一 次 ， 计 数 器 减 为 0 时 ， 就 触发 相应 的 
动作 。 

25.2 代码 介绍 

当 某 个 连接 的 TCP 控 制 块 中 的 TF_DELACK 标 志 ( 图 24-14) 置 位 时 ， 允许 该 连接 使 用 延迟 

ACK 定 时 器 。TCP 控 制 块 中 的 t_timer 数 组 包括 4 个 (TCPT_NTIMERS) 计 数 器 ， 用 于 实现 其 


他 的 6 个 定时 器 。 图 25-1 列 出 了 数组 的 索引 。 下 面 简 单 地 介绍 这 6 个 计数 器 是 如 何 实 现 除 延迟 
ACK 定 时 器 外 的 其 余 6 个 定时 器 的 。 


TCPT REXMT 重 传 定时 器 


TCPT PERSIST 持续 定时 器 
TCPT KEEP 保 活 定时 器 或 连接 建立 定时 器 
TCPT 2MSL 2MSL 定 时 器 或 FIN_WAIT_2 定 时 器 


图 25-1 t_timer 数 组 索引 


t_timer 中 的 每 条 记录 ， 保 存 了 定时 器 的 剩余 值 ， 以 500 ms 为 计时 单位 。 如 果 等 于 零 ， 
则 说 明 对 应 的 定时 器 没有 设 定 。 由 于 每 个 定时 器 都 是 短 整 型 ， 所 以 定时 器 的 最 大 值 只 能 设 定 


为 16 383.5 秒 ， 约 为 4.5 小 时 。 
ne [esac] Hi | mun | EN | amsi 
ihm | aura 定时 器 | 定时 器 | WAIT 2 


t timer[TCPT REXMT] . 
t timer[TCPT PERSIST] . 
t timer[TCPT. KEEP] . 


t timer[TCPT 2MSI] 
t flags & TF. DELACK . 
-二 一 
tcp keepidle (2 小 时 ) 
tcp. keepintvl (75 秒 ) 


tcp_maxidle (10 分 钟 ) | 

2 * TCPTV MSL (60b) 

TCPTV. KEEP INIT (75 秒 ) ° Ll. 
图 25-2 七 个 TCP 定 时 器 的 实现 


请 注意 ， 图 25-1 中 利用 4 个 “定时 计数 器 ”实现 了 6 个 TCP“ 定 时 器 ”， 这 是 因为 有 些 定时 
器 披 此间 是 互 斥 的 。 下 面 我 们 首先 区 分 一 下 计数 器 与 定时 器 。TCPT_KEEP 计 数 器 同时 实现 了 
保 活 定时 器 和 连接 建立 定时 器 ， 因 为 这 两 个 定时 器 永远 不 会 同时 出 现在 同一 条 连接 上 。 类 似 
地 ，2MSL 定 时 器 和 FIN_WAIT_2 定 时 器 都 由 TCPT_2MSL 计 数 器 实现 ， 因 为 一 条 连接 在 同一 
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时 间 内 只 可 能 处 于 其 中 的 一 种 状态 。 图 25-2 的 第 一 行 小 结 了 7 个 TCP 定 时 器 的 实现 方式 ， 第 二 
行 和 第 三 行列 出 了 其 中 4 个 定时 器 初始 化 时 用 到 的 3 个 全 局 变量 (图 24-3) 和 2 个 常量 (图 25-3)。 注 
意 ， 有 2 个 全 局 变量 同时 被 多 个 定时 器 使 用 。 前 面 已 讨论 过 ， 延 迟 ACK 定 时 器 直接 受 控 于 TCP 
的 200 ms 定时 器 ， 在 本 章 后 续 部 分 将 讨论 其 他 2 个 定时 器 的 时 间 长 度 是 如 何 设 定 的 。 

图 25-3 列 出 了 NeV3 实 现 中 基本 的 定时 器 取 值 。 


500ms 的 H 数 
ram 
| rcprv msr | MSL MSL， 最 大 报 文 段 生存 时 间 
TCPTV MIN 重 传 定 时 器 最 小 值 
ERN SEEN HR 
TCPTV PERSMIN m 持续 定时 器 最 小 值 
a 和 
TCPTV_KEEP_INIT | 150 EMEN 连接 建立 定时 器 取 值 
TCPTV KEEP IDLE | 14400 第 一 次 保 话 测试 前 连接 的 空闲 时 间 (2 小 时 ) 
TCPTV. KEEPINTVL 150 对 端 无 响应 时 保 话 测试 间 的 间隔 时 间 


TCPTV_ SRTTBASE 特殊 取 值 ， 意 味 着 目前 无 连接 RTT 样 本 
TCPTV SRTTDFLT 连接 无 RTT 样 本 时 的 默认 值 





图 25-3 TCP 实 现 中 基本 的 定时 器 取 值 
图 25-4 列 出 了 在 代码 中 会 遇 到 的 其 他 定时 器 常量 。 


TCP_LINGERTIME 用 于 SO_LINGER 插 口 选 项 的 最 大 时 间 ， 以 秒 为 单位 


TCP MAXRXTSHIFT 等 待 某 个 ACK 的 最 大 重 传 次 数 
TCPTV KEEPCNT 对 端 无 响应 时 ， 最 大 保 活 测 试 次 数 





图 25-4 定时 器 常量 
图 25-5 中 定义 的 TCPT_RANGESET 宏 ， 给 定时 器 设 定 一 个 给 定 值 ， 并 确认 该 值 在 指定 范 
围 内 。 


- - tcp. timer.h 
102 #define TCPT RANGESET(tv, value, tvmin, tvmax) { WX 
103 (tv) = (value); \ 
104 if ((tv) < (tvmin)) \ 
105 (tv) = (tvmin); V 
106 else if ((tv) > (tvmax)) ^ 
107 (tv) = (tvmax); \ 
108 ) . 

tcp timer.h 


图 25-5 TCPT RANGESETZ: 


从 图 25-3 可 知 ， 重 传 定时 器 和 持续 定时 器 都 有 最 大 值 和 最 小 值 限 制 ， 因 为 它们 的 取 值 都 
是 基于 测量 的 往返 时 间 动 态 计算 得 到 的 ， 其 他 定时 器 均 设 为 常 值 。 

本 章 中 将 不 讨论 图 25-4 中 列 出 的 一 个 特殊 定时 器 : 插口 的 拖延 定时 器 (linger timer)， 这 是 
由 插口 选项 So_LINGER 设 置 的 。 这 是 一 个 播 口 级 的 定时 器 . 由 系统 函数 close 使 用 (15.15 节 )。 
在 图 30-12 中 读者 将 看 到 ， 插 口 关 闭 时 ，TCP 会 首先 检查 该 选项 是 否 置 位 ， 拖 延 时 间 是 否 为 0。 
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如 果 上 述 条 件 满足 ， 将 不 采用 TCP 正 常 的 关闭 过 程 ， 连 接 直接 被 复位 。 
25.3 tcp_canceltimers 了 函数 


图 25$-6 中 定义 了 tcp_canceltimers 畏 数 。 连 接 进 入 TIME_WAIT 状 态 时 ，tcp_input 
在 设 定 2MSL 定 时 器 之 前 ， 调 用 该 函数 。4 个 定时 计数 器 清 零 ， 相 应 地 关闭 了 重 传 定时 器 、 持 
续 定时 器 、 保 活 定时 器 和 FIN_WAIT_2 定 时 器 。 





107 void tcp_fimer.c 
108 tcp cancelitimers(tp) 
109 struct tcpcb *tp; 
110 ( 
111 int i; 
112 for (i = 0; i < TCPT NTIMERS; i++) 
113 tp-»t, timer[i] = 0; 
114 } . 
tcp timer.c 


图 25-6 tcp_canceltimers H% 


25.4 tcp fasttimoju E 


图 25$-7 定 义 了 tcp_fasttirmo 畏 数 。 该 图 数 每 隔 200 ms 被 pr _fasttimo 调 用 一 次 ， 用 
于 操作 延迟 ACK 定 时 器 。 


41 void tcp timer.c 
42 tcp.fasttimo() 
43 ( 
44 Struct inpcb *inp; 
45 struct tcpcb *tp; 
46 int S = splnet(); 
47 inp - tcb.inp next; 
48 if (inp) 
49 for (; inp !- &tcb; inp = inp-»inp next) 
50 if ((tp = (struct tcpcb *) inp-»inp.ppcb) && 
51 (tp-»t flags & TF, DELACK)) ( 
52 tp-»t flags &- "TF. DELACK; 
53 tp-»t flags |= TF. ACKNOW; 
54 tcpstat.tcps delack«-*; 
55 (void) tcp output (tp); 
56 ) 
57 Spixí(s); 
58 } - 
tcp. timer.c 


图 25-7 tcp_fasttimo 国 数 ， 每 200 ms 调用 一 次 


函数 检查 TCP 链 表 中 每 个 具有 对 应 TCP 控 制 块 的 Internet PCB。 如 果 TCP_DELACK 标 志 置 
位 ， 清 除 该 标志 ， 并 置 位 TF_ACKNOW 标 志 。 调 用 tcp_output， 由 于 TF_ACKNOW 标 志 已 置 
位 ，ACK 被 发 送 。 

为 什么 TCP 的 PCB 链 表 中 的 某 个 Internet PCB 会 没有 相应 的 TCP 控 制 块 (第 50 行 的 判断 )?” 读 
者 将 在 图 30-11 中 看 到 ， 创 建 插口 时 (PRU_ATTACH 请 求 响 应 socket 系 统 调用 )， 首 先 创 建 
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Inertnet PCB， 之 后 才 创 建 TCP 控 制 块 。 两 个 操作 间 有 可 能 会 播 入 高 优先 级 的 时 钟 中 断 (图 1-13)， 
该 中 断 有 可 能 调用 cp_fasttimo 国 数 。 


25.5 tcp slowtimorf ži 


Bl25-84E X f tcp. slowtimorm, 4jglgSO0mstlipr slowtimolAH—ix. "HERI 
6 个 定时 器 : 连接 建立 定时 器 、 重 传 定 时 器 、 持 续 定时 器 、 保 活 定时 器 、FIN_WAIT_2 定 时 器 





icp timer.c 


和 2MSL 定 时 器 。 
64 void 
65 tcp slowtimo() 
66 ( 
67 struct inpcb *ip, *ipnxt; 
68 struct tcpcb *tp; 
69 int S = Splnet(); 
70 int i: 
71 tcp maxidle = TCPTV KEEPCNT * tcp keepintvl; 
72 /* 
73 * Search through tcb's and update active timers. 
74 */ 
75 ip = tcb.inp next; 
76 if (ip == 0) ( 
77 splx(s); 
78 return; 
79 ) 
80 for (; ip !- &tcb; ip - ipnxt) ( 
81 ipnxt = ip-»inp, next; 
82 tp - intotcpcb(ip); 
83 if (tp == 0) 
84 continue; 
85 for {i = 0; i < TCPT NTIMERS; i++) ( 
86 if (tp-»t timer[i] && --tp-»t timer[i] == 0) ( 
87 (void) tcp usrreq(tp-»t inpcb-»inp socket, 
88 PRU, SLOWTIMO, (struct mbuf *) O0, 
89 (struct mbuf *) i, (struct mbuf *) 0); 
90 if (ipnxt-»inp prev !- ip) 
91 goto tpgone; 
92 ) 
93 ) 
94 tp-»t idles«; 
95 if (tp-»t rtt) 
96 tp-»t rtt**; 
97 tpgone: 
98 ; 
99 } 
100 tcp iss += TCP ISSINCR / PR SLOWHZ; /* increment iss */ 
101 tcp now-*; /* for timestamps */ 
102 splxí(s); 
103 ) 





图 25-8 tcp_slowtimo 国 数 ， 每 隔 $00 ms 调用 一 次 


icp timer.c 


71 tcp_maxidle 初 始 化 为 10 分 钟 ， 这 是 TCP 向 对 端 发 送 连 接 探 测报 文 自 后 ， 收 到 对 端 主 机 
响应 前 的 最 长 等 待 时 间 。 如 图 25-6 所 示 ，FIN_WAIT_2 定 时 器 也 使 用 了 这 一 变量 。 它 的 初始 化 
语句 可 放 到 tcp_init 中 ， 因 为 其 值 可 在 系统 初 启 时 设 定 (见习 题 25.2)。 
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1. 检查 所 有 TCP 控 制 块 中 的 所 有 定时 器 
72-89 ”检查 TCP 链 表 中 每 个 具有 对 应 TCP 控 制 块 的 Internet PCB， 测 试 每 个 连接 的 所 有 定时 
计数 器 ， 如 果 非 0， 计 数 器 减 1。 如 果 减 为 0， 则 发 送 PRU_SLOWTIMO 请 求 。 后 面 会 介绍 该 请 
求 将 调用 上 tcp_timers 图 数 。 

tcp_usrreq 的 第 四 个 人 口 参数 是 指向 mbuf 的 指针 。 不 过 ， 在 不 需要 mbuf 指 针 的 场合 ， 
这 个 参数 实际 被 用 于 完成 其 他 功能 。tcp_slowtimo 销 数 中 利用 它 传递 索引 i， 指 出 超时 的 
是 哪 一 个 时 钟 。 代 码 中 把 i 强制 转换 为 mbuf 指 针 是 为 了 避免 编译 错误 。 

2. 检查 TCP 控 制 块 是 否 已 被 删除 
90-93 在 检查 控制 块 中 的 定时 器 之 前 ， 先 将 指向 下 一 个 Internet PCB 的 指针 保存 在 ipnxt 中 。 
每 次 PRU_SLOWTIMO 请 求 返 回 后 ，tcp_s1owtimo 会 检查 TCP 链 表 中 的 下 一 个 PCB 是 否 仍 指 
向 当前 正 处 理 的 PCB。 如 果 不 是 ， 则 意味 着 控制 块 已 被 删除 一 一 也 许 2MSL 定 时 器 超时 或 重 传 
定时 器 超时 ， 并 且 TCP 已 放弃 当前 连接 一 一 控制 转 到 tpgone， 跳 过 当前 控制 块 的 其 余 定 时 器 ， 
并 移 至 下 一 个 PCB 。 

3. 计算 空闲 时 间 
94 当 一 个 报 文 段 到 达 当 前 连接 ，tcp_input 清 零 控 制 块 中 的 t_idle。 从 连接 收 到 最 后 一 
个 报 文 段 起 ， 每 隔 500ms t_idle 递 增 一 次 。 空 闲 时 间 统 计 主 要 有 三 个 目的 : (1)TCP 在 连接 空 
闲 2 小 时 后 发 送 连接 探 铀 报 文 段 ; (2) 如 果 连 接 位 于 FIN_WAIT_2 状 态 ， 且 空闲 10 分 钟 后 又 空闲 
75 秒 ，TCP 将 关闭 该 连接 ; (3) 连 接 空闲 一 段 时 间 后 ，tcp_output 将 返回 慢 启动 状态 。 

4. 增加 RTT 计 数 器 
95-96 如果 需 要 测量 某 个 报 文 段 的 RTT，tcp_output 在 发 送 该 报 文 段 时 ， 初 始 化 t_rtt 
计数 器 为 1。 它 每 500 ms 递增 一 次 ， 直 至 收 到 该 报 文 段 的 确认 。 在 tcp._s1lowtimo 函 数 中， 
如 果 连 接 正 对 某 个 报 文 段 计时， 即 t_rtt 计 数 器 非 零 ， 则 递增 t_rtt。 

5. 递增 初始 发 送 序号 
100 tcp_iss 在 tcp_init 中 初始 化 为 1!。 每 500 ms tcp_iss 增 加 64 000: 128 000 
(TCP_ISSINCR) 除 以 2 (PR_SLOWHZ)。 尽 管 看 上 去 tcp_iss 每 秒 钟 仅 递 增 两 次 ， 但 实际 速 
率 可 达 每 8 微 秒 增加 1。 后 面 将 介绍 ， 无 论 主动 打开 或 被 动 打开 ， 只 要 建立 了 一 条 连接 ， 
tcp_iss 就 会 增加 64 000, 

RFC 793 规 定 初 始 发 送 序号 应 该 约 每 4 微 秒 增加 一 次 ， 或 每 秒 钟 230 000 次 。Net/3 

实现 的 增加 速率 只 有 规定 的 一 半 。 

6. 递增 RFC 1323 规 定 的 时 间 蕉 值 
101 tcp_now 在 系统 重启 时 初始 化 为 0， 每 500 ms 递增 一 次 ， 用 于 实现 REC 1323 中 定义 的 时 
间 稚 [Jacobson, Barden 和 Borman 1992]。26.6 节 中 将 详细 介绍 这 一 功能 。 
75-79 请 注意 ， 如 果 主 机 上 没有 打开 的 连接 (tcb .inp_next 为 空 )， 则 zcp_iss 和 则 
tcp_now 的 递增 将 停止 。 这 种 状况 只 可 能 发 生 在 系统 初 启 时 ， 因 为 在 一 个 联网 的 UNIX 系 统 
中 几乎 不 可 能 没有 若干 活跃 的 TCP 服 务 器 。 


25.6 tcp timersif Zi 


tcp_timers 函 数 在 4 个 TCP 定 时 计数 器 中 的 任何 一 个 减 为 0 时 由 TCP 的 PRU_SLOWTIMO 
请 求 处 理 代 码 调 用 (图 30-10): 
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case PRU, SLOWTIMO: 


tp - tcp timers(tp, (int)nam); 


整个 函数 的 结构 是 一 个 switch 语 句 ， 每 个 定时 器 对 应 一 个 case 语 句 ， 如 图 25-9 所 示 。 


120 
121 
122 
123 
124 
125 


126 


256 
257 
258 


struct tcpcb * tcp timer.c 


tcp timers(tp, timer) 
struct tcpcb *tp; 
int timer; 
f 
int rexmt; 


switch (timer) ( 
/* switch cases */ 


} 
return (tp); 


tcp timer.c 


图 25-9 tcp_timers t: 总 体 框架 


下 面 我 们 介绍 其 中 3 个 定时 计数 器 (5 个 TCP 定 时 器 )， 重 传 定时 器 留待 25.11 节 中 再 讨论 。 


25.6.1 


FIN. WAIT 23H2MSL3ER] 8E 


TCP 的 TCP2_2MSL 定 时 计数 器 实现 了 两 种 定时 器 。 

1) FIN_WAIT_2 定 时 器 。 当 tcp_input 从 FIN_WAIT_1 状 态 变 迁 到 FIN_WAIT 2 状态 ， 并 
且 播 口 不 再 接收 任何 新 数据 (意味 着 应 用 进程 调用 了 close， 而 不 是 shutdcown， 从 而 无 法 利 
用 TCP 的 半 关 闭 功 能 ) 时 ，FIN_WAIT_2 定 时 器 设 定 为 10 分 钟 (CEcp_maxidle)。 这 样 可 以 防止 
连接 永远 停留 在 FIN_WAIT_2 状 态 。 

2) 2MSL 定 时 器 。 当 TCP 转 移 到 TIME_WAIT 状 态 ，2MSL 定 时 器 设 定 为 60 秒 。 











图 25-10 列 出 了 处 理 2MSL 定 时 器 的 case 语 句 一 一 在 该 定时 器 减 为 0 时 执行 。 
127 Ts tcp timer.c 
128 * 2 MSL timeout in shutdown went off. If we're closed but 
129 * still waiting for peer to close and connection has been idle 
130 * too long, or if 2MSL time is up from TIME WAIT, delete connection 
131 * control block. Otherwise, check again in a bit. 
132 +y 
133 case TCPT_2MSL: 
134 if (tp->t_state != TCPS_TIME_WAIT && 
135 tp->t_idle <= tcp maxidle) 
136 tp-»t timer[TCPT 2MSL] = tcp keepintvl; 
137 else 
138 tp = tcp close(tp):; 
139 break; . 

tcp timer.c 
图 25-10 tcp timersiSt: 2MSL 定 时 器 超时 
1. 2MSL 定 时 器 


127-139 ”图 25-10 中 的 条 件 判 断 逻 辑 较 为 复杂 ， 因 为 TCPT_2MSL 计 数 器 的 两 种 不 同 用 法 混 


在 了 一 


起 (习题 25.4)。 首 先 看 TIME_WAIT 状 态 ， 定 时 器 60 秒 超时 后 ， 将 调用 tcp_close 并 释 
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放 控 制 块 。 图 25-11 给 出 了 典型 的 时 间 顺 序 ， 列 出 了 2MSL 定 时 器 超时 后 的 一 系列 国 数 调用 。 
从 图 中 可 看 出 ， 如 果 某 个 定时 器 被 设 定 为 N 秒 (2 x N 滴 答 )， 由 于 定时 计数 器 的 第 一 次 递减 将 发 
生 在 其 后 的 0~500 ms 之 间 ， 定 时 器 将 在 其 后 2 x N-1 和 2 x N 个 滴答 之 间 的 某 个 时 刻 超时 。 


119 时 钟 滴答 x 500ms 滴 答 =59.5 秒 














19 118 117 3 2 1 0 
t 
这 个 区 间 内 ， 连 接 进 每 滴答 500 ms 
人 和 人 TIME_WAIT 状 态 ， prs lowt imo() 
2MSL 定 时 器 设 定 为 
60 秒 (120 个 滴答 ) tep-slowtimo( ) 


tcp usrreq (PRU, SLOWTIMO) 
tcp.t imers (TCPT 2MSL) 
tcp. close() 
图 25-11 TIME_WAIT 状 态 下 2MSL 定 时 器 的 设 定 与 超时 
2. FIN_WAIT_2 定 时 器 
127-139 ”如 果 连 接 状 态 不 是 TIME_WAIT，TCPT_2MSL 计 数 器 表示 FIN_WAIT_2 定 时 器 。 
只 要 连接 的 空闲 时 间 超 过 10 分 钟 (tcp_maxidale)， 连 接 就 会 被 关闭 。 但 如 果 连 接 的 空 亲 时 间 
小 于 或 等 于 10 分 钟 ，FIN_WAIT_2 定 时 器 将 被 设 为 75 秒 。 图 25-12 给 出 了 典型 的 时 间 顺 序 。 


1200088 150084 


(10 分 钟 ) C589) 
! (| ' 


进入 FIN_WAIT_2 状 态 FIN_WAIT_2 定 时 器 超时 FIN_WAIT_2 定 时 器 超时 
FIN_WAIT_2 定 时 器 设 定 为 t idle-1198; t idle-11984150; 
1200(tcp. maxidle); FIN_WAIT_2 定 时 器 设 定 tcp_close() 

t idle-0 233150 (tcp. keepintvl) 


图 25-12 FIN WAIT 25EB[2&, EG KA ERIT FIN WAIT 21825 


连接 接收 到 一 个 ACK 后 ， 从 FIN_WAIT_1 状 态 变迁 到 FIN_WAIT_2 状 态 (图 24-13)，t_idle 
被 置 为 0，FIN_WAIT_2 定 时 器 设 为 1200(tcp_maxidle)。 图 25-12 中 ， 向 上 的 箭头 指 着 10 分 钟 定 
时 起 始 时 刻 的 右 侧 ， 强 调 定时 计数 器 的 第 一 次 递减 发 生 在 定时 器 设 定 后 的 0~500 ms 之 间 。1199 
个 滴答 后 ， 定 时 器 超时 。 从 图 25-8 中 可 知 ， 在 四 个 定时 计数 器 递减 并 做 超时 判定 之 后 ，t_idle 
才 会 增加 ， 因 此 t_idle 等 于 1198( 我 们 假定 连接 在 10 分 钟 内 一 直 空 闲 )。 因 为 条 件 表达 式 “1198 
小 于 或 等 于 1200” 为 真 ，FIN_WAIT_2 定 时 器 设 为 150 (tcp_keepintv1)。 定 时 器 75 秒 后 再 次 
超时 ， 假 定 连接 一 直 空 阅 ，t_idle 应 为 1348， 条 件 表达 式 为 假 ，tcpP_close 被 调用 。 

第 一 次 10 分 钟 定时 后 加 入 另 一 个 75 秒 定时 是 因为 除非 持续 空闲 时 间 超过 10 分 钟 ， 否 则 处 
于 FIN_WAIT_2?2 状 态 的 连接 不 会 被 关闭 。 如 果 第 一 个 10 分 钟 定 时 器 还 未 超时 ， 测 试 t_idle 值 
是 没有 意义 的 ， 但 只 要 过 了 这 段 时 间 ， 每 隔 75 秒 就 会 进行 一 次 测试 。 由 于 有 可 能 收 到 重复 的 
报 文 段 ， 即 一 个 重复 的 ACK 使 得 连接 从 FIN_WAIT_1 状 态 变迁 到 FIN_WAIT_2 状 态 ， 因 此 每 收 
到 一 个 报 文 段 ，10 分 钟 等 待 将 重新 开始 (因为 t_id1le 重 设 为 0)。 
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处 于 FIN_WAIT 2 状态 的 连接 在 10 分 钟 空闲 后 将 被 关闭 ， 这 一 点 并 不 符合 协议 规 
范 ， 但 在 实际 中 是 可 行 的 。 处 于 FIN_WAIT_ 2 状态 ， 应 用 进程 调用 close， 连 接 上 的 
所 有 数据 都 已 发 送 并 被 确认 ，FIN 已 被 对 端 确认 ，TCP 等 待 对 端 应 用 进程 调用 close。 
如 果 对 端 进程 永远 不 关闭 它 的 连接 ， 本 地 TCP 将 一 直 灌 留 在 FIN_WAIT_2 状 态 。 应 定 
义 计 数 器 保存 由 于 这 种 原因 而 终止 的 连接 数 ， 从 而 了 解 这 种 状况 出 现 的 频率 。 


25.6.2 持续 定时 器 
图 25-13 给 出 了 处 理 持 续 定时 器 超时 的 case 语 句 。 
218 yr tcp timer.c 
211 * * Persistence timer into zero window. 
212 * Force a byte to be output, if possible. 
213 */ 
214 case TCPT, PERSIST: 
215 tcpstat.tcps persisttimeo-«-*; 
216 tcp setpersist (tp); 
217 tp-»t force = 1; 
218 (void) tcp output (tp); 
219 tp-»t force = 0; 
220 break; . 
tcp timer.c 


图 25-13 tcp_timers 国 数 : 持续 定时 器 超时 


强制 发 送 窗 口 探测 报 文 段 
210-220 持续 定时 器 趋 时 后 ， 由 于 对 端 已 通告 接收 窗口 为 0，TCP 无 法 向 对 端 发 送 数据 。 此 
时 ，tcp_setpersist 计 算 持续 定时 器 的 下 一 个 设 定 值 ， 并 存储 在 TCPT_PERSIST 计 数 器 
中 。t_force 标 志 置 位 ， 强 制 tcp_output 发 送 1 字 节 数 据 。 

图 25-14 给 出 了 局 域 网 环境 下 ， 持 续 定 时 器 的 典型 值 ， 假 定 连接 的 重 传 时 限 为 1.5 秒 ( 见 卷 1 
的 图 22-1)。 


556,12 24 48 60 60 秒 
0 51016 28 52 100 160 220 


图 25-14 持续 定时 器 取 值 的 时 间 表 : 探测 对 端 接收 窗口 


一 且 持 续 定 时 器 取 值 达到 60 秒 ，TCP 将 每 隔 60 秒 发 送 一 次 窗口 探测 报 文 段 。 由 于 持续 定 
时 器 取 值 的 下 限 为 5 秒 ， 上 限 为 60 秒 ， 因 此 定时 器 头 两 次 均 设 定 为 $ 秒 ， 而 不 是 1.5 秒 和 3 秒 。 
从 图 中 可 知 ， 定 时 器 采用 了 指数 退 避 策略 ， 新 的 取 值 等 于 原 有 值 乘 以 2，25.9 节 中 将 介绍 这 一 
算法 的 实现 。 
25.6.3 连接 建立 定时 器 和 保 活 定时 器 

TCP 的 TCPT_KEEP 计 数 器 实现 了 两 个 定时 器 : 

1) 当 应 用 进程 调用 connect， 连 接 转移 到 SYN_SENT 状 态 (主动 打开 )， 或 者 当 连 接 从 


LISTEN 状 态 变迁 到 SYN_RCVD 状 态 (被 动 打开 ) 时 ，SYN 发 送 之 后 ， 将 连接 建立 定时 器 设 定 为 
75 秒 (TCPTV_KEEP_INIT)。 如 果 75 秒 内 连接 未 能 进入 ESTABLISHED 状 态 ， 则 该 连接 被 丢弃 。 
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2) 收 到 一 个 报 文 段 后 ，tcp_input 将 复位 连接 的 保 活 定时 器 ， 重 设 为 2 小 时 
(tcp_keepidle)， 并 清 零 连接 的 t_idle 计 数 器 。 上 述 操作 适用 于 系统 中 所 有 的 TCP 连 接 ， 
无 论 是 否 置 位 了 揪 口 的 保 话 选项 。 如 果 保 活 定时 器 超时 ( 收 到 最 后 一 个 报 文 段 2 小 时 后 )， 并 且 
置 位 了 插口 的 保 活 选项 ， 则 TCP 将 向 对 端 发 送 连 接 探 铀 报 文 段 。 如 果 定 时 器 超时 ， 且 未 置 位 
插口 选项 ， 则 TCP 将 只 复位 定时 器 ， 重 设 为 2 小 时 。 

图 25-15 给 出 了 处 理 TCP 的 TCPT_KEEP 计 数 器 的 case 语 句 。 





221 7* tcp timer.c 

222 * Keep-alive timer went off; send something 

223 * or drop connection if idle for too long. 

224 */ 

225 case TCPT KEEP: 

226 tcpstat.tcps, keeptimeo-s*; 

227 if (tp-»t state < TCPS ESTABLISHED) 

228 goto dropit; /* connection establishment timer */ 

229 if (tp-»t inpcb-»inp socket-»so options & SO KEEPALIVE && 

230 tp-»t state <= TCPS CLOSE WAIT) ( 

231 if (tp-»t idle >= tcp. keepidle + tcp, maxidle) 

232 goto dropit; 

233 /* 

234 * Send a packet designed to force a response 

235 * if the peer is up and reachable: 

236 * either an ACK if the connection is still alive, 

237 * or an RST if the peer has closed the connection 

238 * due to timeout or reboot. 

239 * Using sequence number tp-»snd una-1 

240 * causes the transmitted zero-length segment 

241 * to lie outside the receive window; 

242 * by the protocol spec, this requires the 

243 * correspondent TCP to respond. 

244 */ 

245 tcpstat.tcps keepprobe-s*; 

246 tcp respond(tp, tp-»t template, (struct mbuf *) NULL, 

247 tp-»rcv,nxt, tp-»snd una - 1, 0); 

248 tp-»t timer[TCPT KEEP] = tcp keepintvl; 

249 ) else 

250 tp-»t timer[TCPT KEEP] - tcp keepidle; 

251 break; 

252 dropit: 

253 tcpstat.tcps keepdrops«*; 

254 tp - tcp drop(tp, ETIMEDOUT); 

255 break; . 
tcp timer.c 


图 25-15 tcp timertf&Ék: 保 活 时 钟 超时 处 理 


1. 连接 建立 定时 器 75 秒 后 超时 
221-228 如 果 状 态 小 于 ESTABLISHED( 图 24-16)，TCPT_KEEP 计 数 器 代表 连接 建立 定时 器 。 
定时 器 超时 后 ， 控 制 转 到 dropit， 调 用 cp_drop 终 止 连接 ， 给 出 差错 代码 ETIMEDOUT。 
我 们 将 看 到 ，ETIMEDOUT 是 默认 差错 码 一 一 例如 ， 连 接收 到 了 某 个 差错 报告 ， 比 如 ICMP 的 
主机 不 可 达 ， 返 回应 用 进程 的 差错 码 将 变 为 EHOSTUNREACH， 而 非 默 认 差错 码 。 

我 们 将 在 图 30-4 中 看 到 ，TCP 发 送 SYN 的 同时 初始 化 了 两 个 定时 器 : 正在 讨论 的 连接 建立 
定时 器 ， 设 定 为 75 秒 ， 和 重 传 定时 器 ， 保 证 对 端 无 响应 时 可 重 传 SYN。 图 25-16 给 出 了 这 两 个 
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75 秒 











定时 器 : 0 75 
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图 25-16 SYN 发 送 后 : 连接 建立 定时 器 和 重 传 定时 器 


定时 器 。 

对 于 一 个 新 连接 ， 重 传 定时 器 初始 化 为 6 秒 (图 25-19)， 后 续 值 分 别 为 24 秒 和 48 秒 ，25.7 方 
中 将 详细 讨论 定时 器 取 值 的 计算 方法 。 重 传 定时 器 使 得 SYN 报 文 段 在 0 秒 、6 秒 和 30 秒 处 连续 
三 次 被 重 传 。 在 75 秒 处 ， 也 就 是 重 传 定时 器 再 次 超时 之 前 3 秒 钟 ， 连 接 建 立定 时 器 超时 ， 调 用 
tcp_drop 终 止 连 接 。 

2. 保 活 定 时 器 在 2 小 时 空闲 后 超时 
229-230 ”所 有 连接 上 的 保 活 定时 器 在 连续 2 小 时 空闲 后 超时 ， 无 论 连接 是 否 选取 了 插口 的 
SO_KEEPALIVE 选 项 。 如 果 播 口 选 项 置 位 ， 并 且 连 接 处 于 ESTABLISHED 状 态 或 
CLOSE_WAIT 状 态 (图 24-15)，TCP 将 发 送 连接 探测 报 文 段 。 但 如 果 应 用 进程 调用 了 close( 状 
态 大 于 CLOSE_WAIT)， 即 使 连接 已 空间 了 2 小 时 ，TCP 也 不 会 发 送 连 接 探测 报 文 段 。 

3. 无 响应 时 丢弃 连接 
231-232 如果 连 接 总 的 空闲 时 间 大 于 或 等 于 2 小 时 (tcp_keepiale) 加 10 分 钟 
(tcp_maxidle)， 连 接 将 被 丢弃 。 也 就 是 说 ， 对 端 无 响应 时 ，TCP 最 多 发 送 9 个 连接 探测 报 
文 段 ， 间 隔 75 秒 (tcp_keepintv1)。TCP 在 确认 连接 已 死亡 之 前 必须 发 送 多 个 连接 探测 报 文 
段 的 一 个 原因 是 ， 对 端的 响应 很 可 能 是 不 带 数据 的 纯 ACK 报 文 段 ，TCP 无 法 保证 此 类 报 文 段 
的 可 靠 传输 ， 因 此 ， 连 接 探测 报 文 段 的 响应 有 可 能 丢失 。 

4. 进行 保 活 测 试 
233-248 如 果 TCP 进 行 保 活 测 试 的 次 数 还 在 许可 范围 之 内 ，tcp_respond 将 发 送 连接 探测 
报 文 段 。 报 文 段 的 确认 字段 (tcP_respond 的 第 四 个 参数 ) 填 人 zcv_nxt， 期 待 接收 的 下 一 
序号 ; 序号 字段 填 人 snd_una -1， 即 对 端 已 确认 过 的 序号 (图 24-17)。 由 于 这 一 特定 序号 落 
在 接收 窗口 之 外 ， 对 端 必然 会 发 送 ACK， 给 定 它 所 期 待 的 下 一 序号 。 

图 25-17 小 结 了 保 话 定时 器 的 用 法 





" 2 小 时 75 75 75 75 75 | 75 , 75 , 75 , 75 
(连接 空间 ) 0 75 150 225 300 375 450 525 600 675 
KARK 1 titititi 


探测 探测 sm 探测 探测 探测 探测 探测 探测 
1 2 3 4 5 6 7 8 9 
tcp drop() 
图 25-17 保 活 定时 器 小 结 : 判定 对 端 是 否 可 达 


从 0 秘 起 ， 每 隔 75 秒 连续 9 次 发 送 连接 探测 报 文 段 ， 直 至 600 秒 。675 秒 时 (定时 器 2 小 时 超 
时 后 的 11.25 分 钟 ) 连 接 被 丢弃 。 请 注意 ， 尽 管 常量 TCETV_KEEPCNT( 图 25-4) 的 值 设 为 8， 却 发 
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送 了 9 次 报 文 段 ， 这 是 因为 代码 首先 完成 定时 器 递减 、 与 
0 比较 并 做 可 能 的 处 理 后 才 递 增 变量 t_idle( 图 25-8)。 当 
tcp_input 接 收 了 一 个 报 文 段 ， 就 会 复位 保 活 定时 器 为 2 
14400(tcp_keepidie)， 并 清 零 t_idle。 下 一 次 调用 
tcp_slowtimo 肝 ， 定 时 器 减 为 14339 而 t_idle 增 为 1。 
约 2 小 时 后 ， 定 时 器 从 1 减 为 0 时 将 调用 tcp_timers， 而 
此 时 t_id1ie 的 值 将 为 14339。 图 25-18 列 出 了 每 次 调用 
tcp_timers 时 t_idle 的 取 值 。 

图 25-15 中 的 代码 一 直 等 待 t_iqle 大 于 或 等 于 15600 
(tcp._keepidle+tcp_maxidle)， 这 一 事件 只 可 能 发 图 25-18 调用 tcp_timers 处 理 保 活 
生 在 图 25-17 中 的 675 秒 处 ， 即 连续 发 送 了 9 次 连接 探测 报 定时 器 时 t_idle 的 取 什 
XE. 

5. 复位 保 活 定时 器 
249-250 如果 插口 选项 未 置 位 ， 或 者 连接 状态 大 于 CLOSE_WAIT，、 连 接 的 保 活 定时 器 将 复 
位 ， 重 设 为 2 小 时 (tcp_keepidle)。 

遗憾 的 是 ， 计 数 器 tcp_keepdrops(253 行 ) 不 加 区 分 地 统计 TCPT_KEEP 定 时 计 

数 器 的 两 种 不 同 用 法 所 造成 的 连接 丢弃 : 连接 建立 计数 器 和 保 活 计数 器 。 


25.7 重 传 定时 器 的 计算 


到 目前 为 止 ， 讨 论 过 的 定时 器 的 取 值 都 是 固定 的 : 延迟 ACK 200ms， 连 接 建立 定时 器 75 
秒 ， 保 活 定 时 器 2 小 时 等 等 。 最 后 两 个 定时 器 一 一 重 传 定时 器 和 持续 定时 器 一 一 的 取 值 依 于 连 
接 上 测算 得 到 的 RIT。 在 讨论 实现 定时 器 时 限 计算 和 设 定 的 代码 之 前 ， 首 先 应 理解 连接 RIT 的 
测算 方法 。 

TCP 的 一 个 基本 操作 是 在 发 送 了 需 对 端 确 认 的 报 文 段 后 ， 设 置 重 传 定时 器 。 如 果 在 定时 
器 时 限 范围 内 未 收 到 ACK，、 该 报 文 段 被 重 发 。TCP 要 求 对 端 确认 所 有 数据 报 文 段 ， 不 携带 数 
据 的 报 文 段 则 无 需 确认 (例如 纯 ACK 报 文 段 )。 如 果 估 算 的 重 传 时 间 过 小 ， 响 应 到 达 前 即 超时 ， 
造成 不 必要 的 重 传 ; 如 果 过 大 ， 在 报 文 段 委 失 之 后 ， 发 送 重 传 报 文 段 之 前 将 等 待 一 段 额外 的 
时 间 ， 降 低 了 系统 的 效率 。 更 为 复杂 的 是 ， 主 机 间 的 往返 时 间 动 态 改变 ， 且 变化 范围 显著 。 

Net/3 中 TCP 计 算 重 传 时 限 (RTO) 时 不 仅 要 测量 数据 报 文 段 的 往返 时 间 (nticks)， 还 要 记录 
已 平滑 的 RTT 估 计 器 (srtDD) 和 已 平滑 的 RTT 平 均 偏差 估计 器 (ritvar)。 平 均 偏 差 是 标准 方差 的 良 
好 近似 ， 计 算 较为 容易 ， 无 需 标准 方差 的 求 平方 根 运 算 。[Jacobson 1988b] 讨 论 了 RTT 测 算 的 
其 他 细节 ， 给 出 下 面 的 公式 : 
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delta -nticks -srtt 
srtt «- srtt+g x delta 
rttvar —rttvar-h(Ideltal -rttvar) 
RTO=srtt+4 x rttvar 
delta 是 最 新 测量 的 往返 时 间 (nticks) 与 当前 已 平滑 的 RTT 估 计 器 (srtD) 间 的 差 值 。g 是 用 到 RTT 估 
计 器 的 增益 ， 设 为 /8。h 是 用 到 平均 偏差 估计 器 的 增益 ， 设 为 14。 这 两 个 增益 和 RTO 计 算 中 
的 乘 数 4 有 意 取 为 2 的 乘 方 ， 从 而 无 需 乘 、 除 法 ， 只 需 简单 的 移 位 操作 就 能 够 完成 运算 。 
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[Jacobson 1988b] 规 定 RTO 算 式 应 使 用 2 x rttvar， 但 经 过 进一步 的 研究 ， [Jacobson 
1990d] 更 正 为 4x rtitvar， 即 Net/1 实 现 中 采用 的 算式 。 


下 面 首先 介绍 TCP 重 传 定时 器 计算 中 用 到 的 各 种 变量 和 算式 ， 它 们 在 TCP 代 码 中 出 现 的 频 
率 很 高 。 图 25-19 列 出 了 控制 块 中 与 重 传 定时 器 有 关 的 变量 。 


tcpcb 的 成 员 











t rxtshift 不 








t rxtcur 


图 25-19 用 于 重 传 定时 器 计算 的 控制 块 变量 


tcp_backoff 数 组 将 在 25.9 节 末尾 定义 。tcp_newtcpcb 国 数 设 定 这 些 变量 的 初始 值 ， 
实现 代码 将 在 下 一 节 详 细 讨 论 。 对 变量 t_rxtshift 中 的 shnift 及 其 上 限 
TCP_MAXRXTSHIFT 的 命名 并 不 十 分 准确 。 它 指 的 并 不 是 比特 移 位 ， 而 是 如 图 25-19 中 所 声明 
的 ， 指 数组 索引 。 . 

TCP 时 限 计算 中 不 易 理 解 的 地 方 是 已 平滑 的 RTT 估 计 器 和 已 平滑 的 RTT 平 均 偏差 估计 器 
(t_rtt 和 t_rttvar) 在 C 代 码 中 都 定义 为 整 型 ， 而 不 是 浮 点 型 。 这 样 可 以 避免 内 核 中 的 浮 点 
运算 ， 代 价 是 增加 了 代码 的 复杂 性 。 

为 了 区 分 缩放 前 和 缩放 后 (scaled) 的 变量 ， 斜 体 变量 srt 和 rtvar 表 示 前 面 公式 中 未 缩放 的 
变量 ，t_srtt 和 t_rttvar 表 示 TCP 控 制 块 中 缩放 后 的 变量 。 

图 25-20 列 出 了 将 遇 到 的 四 个 常量 ， 它 们 分 别 定义 了 t_srtt 的 缩放 因子 和 t_rttvar 的 
缩放 因子 ， 分 别 为 8 和 4。 















常量 
TCP RTT SCALE 8 
TCP RTT SHIFT 3 
TCP RTTVAR SCALE 4 
TCP RTTVAR SHIFT 2 


图 25-20 RTT 均 值 与 偏差 的 乘法 与 移 位 
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25.8 tcp_newtcpcb 算 法 


图 25-21 定 义 了 tcp_newtcpcb， 分 配 一 个 新 的 TCP 控 制 块 并 完成 初始 化 。 创 建新 的 插口 
时 ，TCP 的 PRU_ATTACH 请 求 将 调用 它 (图 30-2)。 调 用 者 已 事先 为 该 连接 分 配 了 一 个 Internet 
PCB， 并 在 入 口 参 数 inp 中 包含 指向 该 结构 的 指针 。 我 们 在 这 里 给 出 函数 代码 ， 是 因为 它 初 
始 化 了 TCP 的 定时 器 变量 。 
167-175 内核 函 数 malloc 分 配 控 制 块 所 需 内 存 ，bzero 清 零 新 分 配 的 内 存 块 。 
176 ”变量 seg_next 和 seg_prev 指 向 未 按 正常 次 序 到 达 当 前 连接 的 报 文 段 的 重组 队列 。 我 
们 将 在 27.9 节 中 详细 讨论 这 一 重组 队列 。 
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tcp subr.c 
167 struct tcpcb * 
168 tcp newtcpcb(inp) 
169 struct inpcb *inp; 
170 ( 
171 struct tcpcb *tp; 
172 tp - malloc(sizeof(*tp), M PCB, M NOWAIT); 
173 if (tp -- NULL) 
174 return ((struct tcpcb *) 0); 
175 bzero((char *) tp, sizeof(struct tcpcb)); a 
176 tp->seg_next = tp->seg_prev = (struct tcpiphdr *) tp; 
177 tp->t_maxseg = tcp_mssdflt; 
178 tp->t_flags = tcp do rfc1323 ? (TF_REQ_SCALE | TF REQ TSTMP) : 0; 
179 tp-»t inpcb = inp: 
180 /* 
181 * Init srtt to TCPTV SRTTBASE (0), so we can tell that we have no 
182 * rtt estimate. Set rttvar so that srtt + 2 * rttvar gives 
183 * reasonable initial retransmit time. 
184 */ 
185 tp-»t srtt = TCPTV, SRTTBASE; 
186 tp-»t rttvar = tcp rttdflt * PR SLOWHZ << 2; 
187 tp-»t rttmin - TCPTV MIN; : 
188 TCPT RANGESET (tp-»t rxtcur, 
189 ((TCPTV. SRTTBASE >> 2) + (TCPTV SRTTDFLT << 2)) >> 1, 
190 TCPTV MIN, TCPTV REXMTMAX); 
191 tp-»snd cwnd = TCP MAXWIN << TCP MAX WINSHIFT; 
192 tp-»snd ssthresh = TCP MAXWIN << TCP. MAX WINSHIFT; 
193 inp-»inp.ip.ip ttl = ip defttl; 
194 inp-»inp. ppcb = (caddr t) tp; 
195 return (tp): 
136 ) tcp. subr.c 


图 2$-21 tcp_newtcpcb 函 数 : 创建 并 初始 化 一 个 新 的 TCP 控 制 块 


177-179 发 送 报 文 段 的 最 大 长 度 ，t_maxseq， 上 默认 为 512(tcp_mssdf1t)。 收 到 对 端 
MSS 选 项 后 ， 它 将 被 Lcp_mss 函 数 更 改 (新 连接 建立 后 ，TCP 也 会 向 对 端 发 送 MSS 选 项 )。 如 
果 配 置 要 求 系统 实现 RFC 1313 规 定 的 可 变 窗 口 和 时 间 惟 功能 (图 24-3 中 的 全 局 变量 
tcp_qdo_rfc1313， 上 默认 值 为 1 )，TF_REQ_SCALE 和 TF._REQ_TSTMP 两 个 标志 将 被 置 位 。 
TCP 控 制 块 中 的 t_inpcb 指 针 将 指向 由 调用 者 传 来 的 Internet PCB. 
180-185 初始 化 图 25-19 中 列 出 的 四 个 变量 t_srtt、t_rttvar、t_rttmin 和 和 
t_rxtcur。 首 先 ， 已 平滑 的 RTT 估 计 器 被 设 为 0(TCPTV_SRTTBASE)， 这 个 取 值 非常 特殊 ， 
指明 连接 上 还 不 存在 RTT 估 计 器 。 首 次 进行 RTT 测 量 时 ，tcp_xmit_timer 遇 数 将 判定 已 平 
户 的 RTT 估 计 器 是 否 等 于 0， 以 采取 相应 动作 。 
186-187 已 平 请 的 RTT 平 均 偏差 估计 器 t_rttvar 定 义 为 24: 3(tcp_rttdflt， 图 24-3) 
乘 以 2(PR_SLOWHZ) 后 左 移 2 bit( 即 乘 以 4) 。 由 于 上 +_rttvazr 是 变量 rttvar 的 4 倍 ， 也 就 等 于 6 个 
滴答 ， 即 3 秒 钟 。RTO 的 最 小 值 ，t_rttmin， 为 2 个 滴答 。 
188-190 变量 t_rxtcu 保 存 了 当前 RTO 值 ， 以 滴答 为 单位 ， 最 小 值 为 2 个 滴答 
(TCPTV_MIN)， 最 大 值 为 128 个 滴答 (TCPTV_REXMTMAX)。TCPT_RANGESET 的 第 二 个 参数 ， 
表达 式 计算 后 等 于 12 个 滴答 ， 即 6 秒 钟 ， 是 连接 的 第 一 个 RTO 值 。 

理解 上 述 C 表 达 式 和 RTT 缩 放 值 的 概念 并 不 是 一 件 容 易 的 事 ， 下 面 的 讨论 可 能 会 对 您 有 所 
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帮助 。 首 先 从 原始 的 计算 公式 开始 ， 并 将 缩放 后 的 变量 替代 其 中 缩放 前 的 变量 。 下 面 的 算式 
用 于 计算 第 一 个 R7O， 以 乘 数 2 替代 了 乘 数 4。 
RTO-srtt*2 x rttvar 
使 用 乘 数 2 而 非 4 是 最 初 4.3BSD Tahoe 实 现 的 一 个 遗留 问题 [Paxson 1994], 
把 下 面 两 个 缩放 后 的 变量 代入 上 式 : 
t_srtt=8 x srtt 
t_rttvar=4 x rttvar 
得 到 : 
t srtt 
t srtt t rttvar _ 4 


+2X 一 一 一 一 一 = 
4 2 


也 就 是 图 25-21 代 码 中 TCPT_RANGESET 第 二 个 参数 的 表达 式 ， 只 不 过 用 常量 一 一 值 为 6 个 滴 
答 的 TCPTV_SRTTDFLT 乘 以 4 后 (缩放 运算 ) 代 替 了 变量 t_rttvar。 
191-192 ”拥塞 窗口 (snd_cwn9) 和 慢 起 动 门限 (snd_ssthresh) 初 始 化 为 1 073 725 440 ( 约 
为 1 G 字 节 )， 如 是 配置 了 动态 窗口 选项 ， 这 已 是 TCP 窗 口 大 小 的 上 限 ( 卷 1 的 21.6 闻 详细 讨论 了 
慢 起 动 和 避免 拥塞 策略 )， 即 TCP 首 部 窗口 字段 的 最 大 值 (65535，TCP_MAXWIN) 乘 以 2*，14 是 
窗口 缩放 因子 的 最 大 值 (TCP_MAX_WINSHIFT)。 后 面 将 看 到 ， 连 接 上 发 送 或 接收 了 一 个 SYN 
时 ，tcp_mss 复 位 sngd_cwn9 为 1。 
193-194 Internet PCB 中 的 IP TTL 的 默认 值 初始 化 为 64(ip_deftt1)， 而 PCB 则 指向 新 的 
TCP 控 制 块 。 

代码 中 没有 明确 初始 化 的 其 他 变量 ， 如 移 位 变量 t_rxtshift， 均 为 0， 这 是 因为 控制 块 
内 存 分 配 后 已 由 bzero 清 零 。 


25.9 tcp setpersistiu4Z2 


接 下 来 要 讨论 的 函数 是 ccp_setpersist， 它 用 到 了 TCP 的 重 传 超时 算法 。 从 图 25-13 
中 可 知 ， 持 续 定时 器 超时 后 ， 将 调用 此 函数 。 当 TCP 有 数据 要 发 送 ， 而 连接 对 端 通 告 楼 收 窗 
口 为 0 时 ， 持 续 定 时 器 启动 。 图 25-22 给 出 了 函数 实现 代码 ， 计 算 并 存储 定时 器 的 下 个 取 值 。 





Tt rttvar 
RTO = 








493 void tcp output.c 
494 tcp setpersist (tp) 
495 struct tcpcb *tp; 
496 ( 
497 t = ((tp-»t srtt »» 2) + tp-»t rttvar) >> 1; 
498 if (tp-»t, timer(TCPT REXMT]) 
499 panic("tcp output REXMT"); 
500 /* 
501 * Start/restart persistance timer. 
502 */ 
503 TCPT RANGESET(tp-»t, timer[TCPT PERSIST], 
504 t * tcp. backoff[tp-»t rxtshift], 
505 TCPTV PERSMIN, TCPTV PERSMAX); 
506 if (tp-»t rxtshift « TCP MAXRXTSHIFT) 
507 tp-»t rxtshift4-*; 
508 ] 
tcp. output.c 





图 25-22 tcp_setpersist 函 数 : 计算 并 存储 持续 定时 器 的 下 一 次 取 值 
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1. 确认 重 传 定时 器 未 设 定 
493-499 持续 定时 器 设 定之 前 ， 首 先 检查 确认 重 传 定时 器 未 启动 ， 这 是 因为 两 个 定时 器 彼 
EEF: 如 果 数 据 已 被 发 送 ， 说 明 对 端 通告 的 接收 窗口 必然 非 零 ， 但 持续 时 钟 仅 当 对 端 通告 
零 接收 窗口 时 才 会 设 定 。 
2. 计算 RTO 
500-505 函数 起 始 处 ， 计 算 RTO 值 并 存储 到 变量 t 中 。 使 用 的 计算 公式 为 
RTO=srtt+2 x rttvar 


与 上 小 节 结 束 时 讨论 过 的 公式 相同 。 通 过 变量 替换 可 得 到 


t_srtt 
一 —-rt rttvar 
RTO=— 4 5 
即 变量 t 的 计算 式 。 
3. 指数 退 避 算法 
506-507 RTO 计 算 中 还 用 到 了 指数 退 避 算法 ， 将 上 式 计算 得 到 的 RTO 与 Lcp_backoff 数 组 
中 的 某 个 值 相 乘 : 


int tcp backoftf[ TCP_MAXRXTSHIFT + 1] = 
(1, 2, 4, 8, 16, 32, 64, 64, 64, 64, 64, 64, 64 ); 


tcp_output 第 一 次 为 连接 设置 持续 定时 器 的 代码 是 : 
tp-»t rxtshift-0; 
tcp setpersist(tp); 


因此 ， 第 一 次 调用 kcp_setpersist 时 ，t_rxtshift= 0. Hj T tcp. backoff[0]-1, 
持续 时 限 等 于 t。TCPT_RANGESET 宏 确保 RTO 值 位 于 5 秒 ~60 秒 之 间 。t_rxtshift 每 次 增加 
1， 直 到 最 大 值 12(TCP_MAXRXTSHIFT)，tcp_backoff [121 是 数组 的 最 后 一 个 元 素 。 


25.10 tcp_xmit _ timer 函数 


下 一 个 讨论 的 函数 ，tcp_xmit_cimer， 在 得 到 了 一 个 RTT 出 量 值 ， 从 而 更 新 已 平 请 的 
RTT 估 计 器 (srt) 和 平均 偏差 (rttvar) 时 被 调用 。 

参数 rtt 传 递 了 得 到 的 RTT 测 量 值 。 它 的 值 为 nticks+t1 (与 25.7 节 中 的 符号 一 致 )， 可 以 通 
过 下 面 两 种 方法 之 一 得 到 。 . 

如 果 收 到 的 报 文 段 中 存在 时 间 惟 选项 ，RTT 测 量 值 应 等 于 当前 时 间 (tcp_now) 减 去 时 间 
戳 值 。 我 们 将 在 26.6 节 中 讨论 时 间 惟 选项， 现在 只 需 了 解 Lcp_now 每 500ms 递 增 一 次 (图 25-8)。 
发 送 报 文 段 时 ，tcP_now 做 为 时 间 惟 被 发 送 ， 连 接 对 端 在 相应 的 ACK 中 回 显 该 时 间 戳 。 

如 果 未 使 用 时 间 惟 ， 可 以 对 数据 报 文 计时 。 从 图 25-8 可 知 ， 连 接 上 的 计数 器 f_rtt 每 500 
ms 递增 一 次 。 在 25.5 节 也 曾 提 到 ， 该 计数 器 初始 化 为 1， 因 此 收 到 ACK 时 ， 该 计数 器 中 的 值 即 
为 RTT 测 量 值 加 1( 以 滴答 为 单位 )。 

tcp_input 中 调用 tcp_xmit_timer 的 典型 代码 如 下 : 

if (ts present) 
tcp xmit timer(tp, tcp now - ts ecr + 1); 

else if (tp-»rtt && SEQ GT(ti-»ti ack, tp-»t rtseq)) 
tcp xmit timer(tp, tp-»t rtt); 


Au RR CBE re EB IRE ( CS present), RTTE ES T BII IBI(C cp. now) WA EB 
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的 时 间 惟 (ts_ecz) 再 加 1，RIT 估 计 器 将 被 更 新 (后 面 将 介绍 加 1 的 原因 )。 
如 果 不 存 在 时 间 戳 ， 但 收 到 的 ACK 报 文 确认 了 一 个 正在 计时 的 数据 报 文 ， 这 种 情况 下 
RTT 估 计 器 也 将 被 更 新 。 每 个 TCP 控 制 块 (t_rtt) 中 只 存在 一 个 RTT 计 数 器 ， 因 此 ， 在 一 条 连 
接 上 只 可 能 对 一 个 特定 数据 报 文 计 时 。 这 个 报 文 发 送 时 的 起 始 序号 存储 在 t_rtseq 中 ， 与 收 
到 的 ACK 比 较 ， 可 以 确定 该 报 文 对 应 ACK 返 回 的 时 间 。 如 果 收 到 的 确认 序号 (ti_ack) 大 于 正 
在 计时 的 数据 报 文 起 始 序号 (t_rtseq)，t_rtt 即 为 RTT 新 的 样本 ， 从 而 更 新 RTT 估 计 器 。 


在 支持 RFC 1323 的 时 间 堆 功能 之 前 ，t_rtt 是 TCP 测 量 RTT 的 唯一 方法 。 但 这 
个 变量 还 用 作 确 认 报 文 段 是 否 被 计时 的 标志 (图 25-8): 如 果 t_rtt 大 于 0， 则 
tcp slowtimodfS00msz, mt rtt&jJeli&4fe; A, t rttr, fT 
用 的 滴答 数 再 加 1。 我们 将 看 到 ,tcp_xmit_timer 通 数 中 对 得 到 的 第 二 个 参数 减 1， 
以 纠正 上 述 人 偏差。 因此， 使 用 时 间 发 时， 向 tcp_xmit_timer 传 送 的 第 二 个 参数 必 
须 加 1， 以 保持 一 致 。 


序号 的 大 于 判定 是 因为 ACK 是 累积 的 : 如 果 TCP 发 送 并 计时 的 报 文 序号 为 1~1024 
(t_rtseq 等 于 DJ)， 然 后 立即 发 送 (但 未 计时 ) 下 一 个 报 文 序号 为 1025~2048， 接 着 收 到 一 个 
ACK 报 文 ， 其 ti_ack 等 于 2049， 它 确认 了 序号 1~2048， 即 同时 确认 了 第 一 个 计时 报 文 和 第 
二 个 未 计时 报 文 。 注 意 ， 如 果 使 用 了 RFC 1323 定 义 的 时 间 戳 ， 则 不 存在 序号 比较 问题 。 如 采 
对 端 发 送 了 时 间 改 选项 ， 意 味 着 它 填 入 了 回应 时 间 (ts_ecr)， 从 而 可 直接 计算 RTT。 

图 25-23 给 出 了 函数 更 新 RIT 佑 算 值 的 部 分 代码 。 





1310 
1311 
1312 
1313 
1314 
1315 


1316 
1317 
1318 
1319 
1320 
1321 
1322 
1323 
1324 
1325 
1326 
1327 
1328 
1329 
1330 
1331 
1332 
1333 
1334 
1335 
1336 
1337 


void 


tcp xmit timer(tp, rtt) 
struct tcpcb *tp; 
short rtt; 


{ 
short 


delta; 


tcpstat.tcps rttupdated-«*; 
if (tp-»t srtt !- 0) ( 


Srtt is stored as fixed point with 3 bits after the 
binary point (i.e., scaled by 8). The following magic 
is equivalent to the smoothing algorithm in rfc793 with 
an alpha of .875 (srtt = rtt/8 + srtt*7/8 in fixed 
point). Adjust rtt to origin O0. 


delta = rtt - 1 - (tp-»t srtt >> TCP RTT SHIFT); 
if ((tp-»t srtt += delta) <= O0) 


/ 


+ + + X* +++ 


~ 


tp->t_srtt = 1; 


We accumulate a smoothed rtt variance (actually, a 
smoothed mean difference), then set the retransmit 
timer to smoothed rtt + 4 times the smoothed variance. 
rttvar is stored as fixed point with 2 bits after the 
binary point (scaled by 4). The following is 
equivalent to rfc793 smoothing with an alpha of .75 
(rttvar = rttvar*3/4 + [deltal / 4). This replaces 
rfc793's wired-in beta. 


tcp. input.c 


[825-23 ”tcp_xmit_timer 函 数 ， 利 用 新 的 RTT 测 量 值 计算 已 平滑 的 RTT 估 计 器 
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1338 if (delta < 0) 

1339 delta - -delta; 

1340 delta -= (tp-»t rttvar >> TCP RTTVAR, SHIFT); 

1341 if ((tp-»t rttvar += delta) <= 0) 

1342 tp-»t, rttvar = 1; 

1343 ) else ( 

1344 /* 

1345 * No rtt measurement yet - use the unsmoothed rtt. 
1346 * Set the variance to half the rtt (so our first 
1347 * retransmit happens at 3*rtt). 

1348 */ 

1349 tp-»t srtt = rtt << TCP RTT SHIFT; 

1350 tp-»t rttvar = rtt << (TCP RTTVAR SHIFT - 1); 
1351 ) 


tcp input.c 
图 25-23 (£3) 


1. 更 新 已 平滑 的 RIT 估 计 器 

1310-1325 前面 已 介绍 过 ，tcPp_newtcpcb 初 始 化 已 平滑 的 RTT 估 计 器 (t_srtt) 为 0， 指 
明 连 接 上 不 存在 RTT 估 计 器 。delta 是 RTT 测 量 值 与 当前 已 平滑 的 RTT 估 计 器 间 的 差 值 ， 以 未 
缩放 的 滴答 为 单位 。t_srtt 除 以 8， 单 位 从 缩放 后 的 滴答 转换 为 未 缩放 的 滴答 。 
1326-1327 已 平滑 的 RTT 估 计 器 用 以 下 公式 进行 更 新 : 

srtt — srtt+g x delta 
由 于 增益 g=1/8， 公 式 变 为 

8 x srtt — 8 x srtt+ delta 
也 就 是 
t srtt-t srtt«delta 
1328-1342 已 平滑 的 RTT 平 均 偏 差 估 计 器 的 计算 公式 如 下 : 
rttvar ~ rttvar*h(| deltal-rttvar) 


将 h=1/4 和 缩放 后 的 t_rttvar=4 x rttvar 代 入 ， 得 到 : 


t rttvar t rttvar I delta l- 
Lec. 


4 4 4 


t rttvar 


t rttvar 
t rttvar€-t rttvar-«ldeltal - —————— 


最 后 一 个 表达 式 即 为 C 代 码 中 的 表达 式 。 
2. 第 一 次 测量 RTT 时 初始 化 平滑 的 估计 器 值 
1343-1350 ”如 果 是 首次 测量 某 连 接 的 RTT 值 ， 已 平滑 的 RTT 估 计 器 初始 化 为 测量 得 到 的 样 
本 值 。 下 面 的 计算 用 到 了 参数 rtt， 前 面 已 介绍 过 Ytt 等 于 测量 到 的 RTT 值 加 inticks+1)， 而 
前 面 公式 中 用 到 的 delta 是 从 rtt 中 减 1 得 到 的 。 
srttznticksel 


或 


t srtt . 
= = nticks+1 
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也 就 是 


t srttz(ntickse-1) x 8 


平均 偏差 等 于 测量 到 的 RTT 值 的 一 半 : 


srtt 
rttvar = 一 一 
2 
也 就 是 
t rttvar _ nticks+1 
4 2 
或 者 


t rttvar-(nticks«1) x 2 

代码 中 的 注释 指出 ， 已 平滑 的 平均 偏差 的 这 种 初始 取 值 使 得 RTO 的 初始 值 等 于 3 x srtt。 因 为 
RTO=srtt+4 x rttvar 

替换 掉 rttvar， 得到: 


RTO - sri (Ax 72 





也 就 是 : 
RTO=3 x srtt 
图 2$-24 给 出 了 tcp_xmit_timer 国 数 最 后 一 部 分 的 代码 。 
1352 tp-»t rtt = 0; cp input.c 
1353 tp-»t rxtshift = 0; 
1354 /* 
1355 * the retransmit should happen at rtt + 4 * rttvar. 
1356 * Because of the way we do the smoothing, srtt and rttvar 
1357 * will each average «1/2 tick of bias. When we compute 
1358 * the retransmit timer, we want 1/2 tick of rounding and 
1359 * 1 extra tick because of «-1/2 tick uncertainty in the 
1360 * firing of the timer. The bias will give us exactly the 
1361 * 1.5 tick we need. But, because the bias is 
1362 * statistical, we have to test that we don't drop below 
1363 * the minimum feasible timer (which is 2 ticks). 
1364 */ 
1365 TCPT RANGESET(tp-»t rxtcur, TCP. REXMTVAL (tp), 
1366 tp-»t rttmin, TCPTV. REXMTMAX) ; 
1367 /* 
1368 * We received an ack for a packet that wasn't retransmitted; 
1369 * it is probably safe to discard any error indications we've 
1370 * received recently. This isn't quite right, but close enough 
1371 * for now (a route might have failed after we sent a segment, 
1372 * and the return path might not be symmetrical). 
1373 */ ` 
1374 tp->t_softerror = 0; 
1375 } . 





tcp input.c 
图 25-24 tcp_xmit_timer 国 数 : 最 后 一 部 分 


1352-1353 RTT 计数 器 (t_rtt) 和 重 传 移 位 计数 器 (t_rxtshift) 同 时 复位 为 0， 为 下 一 个 
报 文 的 发 送 和 计时 做 准备 。 
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1354-1366 连接 的 下 一 个 RTO(t_rxtcur) 计 算 用 到 宏 
#define TCP REXMTVAL(tp) V 
(((tp)-»t srtt >> TCP RTT SHIFT) + (tp)-»t ttvar) 


其 实 ， 这 就 是 我 们 很 熟悉 的 公式 
RTO=srtt+4 x rttvar 

用 tcp_xmit_timer 更 新 过 的 缩放 后 的 变量 替代 上 式 中 的 srtt 和 rttvar， 得 到 宏 的 表达 
式 : 
一 +4x 一 - LT 
此 外 ，RTO 取 值 应 在 规定 范围 之 内 ， 最 小 值 为 连接 上 设 定 的 最 小 RTO(t_rttmin,， 
`t_newtcpcb 初 始 化 为 2 个 立 答 )， 最 大 值 为 128 个 滴答 (TCPTV_REXMTMAX)。 

3. 清除 软 错误 变量 
1367-1374 由 于 只 有 当 收 到 了 已 发 送 的 数据 报 文 的 确认 时 ， 才 会 调用 tcp_xmit_timer， 如 
果 连 接 上 发 生 了 软 错误 (t_softerror)， 该 错误 将 被 丢弃 。 下 一 节 中 将 详细 讨论 软 错 误 。 


25.11 重 传 超时 : tcp_timers 函 数 


我 们 现在 回 到 tcp_timers 函 数 ， 讨 论 25.6 节 中 未 涉及 的 最 后 一 个 case 语 句 : 处 理 重 传 
定时 器 。 如 果 在 RTO 内 没有 收 到 对 端 对 一 个 已 发 送 数 据 报 的 确认 ， 则 执行 此 段 代码 。 

图 25-25 小 结 了 重 传 定时 器 的 操作 。 假 定 tcp_output 计 算 的 报 文 首次 重 传 时 限 为 1.5 秒 ， 
这 是 LAN 的 典型 值 (参见 卷 1 的 图 21-1)。 


RTO +t_rttvar 








24 48 64 64 i 64 64 64 64 64 9h 

Htt 一 一 一 一 一 全 一 一 一 一 二 一 一 一 一 本 一 一 一 一 -| 
， 746.5 94.5 158.5 222.5 286.5 350.5 414.5 478.5 542.5 
| (5) ~ ~~ (6 (7) (8) (9) (10) (11) (12) (13) 
| ~ 
| 7 tcp drop() 
上 3 | 6 | 12$» >> 
015 45 10.5 22.5 

0 Q (3) (ct_rxtshift 的 新 值 


图 25-25 发 送 数据 时 重 传 定时 器 小 结 


X 轴 为 时 间 轴 ， 以 秒 为 单位 ， 标 注 依 次 为 : 0、1.5、4.5 等 等 。 这 些 数字 的 下 方 ， 给 出 了 代 
码 中 用 到 的 t_rxtshift 的 值 。 连 续 12 次 重 传 后 ， 总 共 为 542.5 秒 ( 约 9 分 钟 )， TCP 将 放弃 并 丢 
弃 连 接 。 
RFC 793 建 议 在 建立 新 连接 时 ， 无 论 主动 打开 或 被 动 打 开 ， 应 定义 一 个 参数 规定 
TCP 发 送 数据 的 总 时 限 ， 也 就 是 TCP 在 放弃 发 送 并 丢弃 连接 之 前 试图 传输 给 定数 据 报 
文 的 总 时 间 。 推 荐 的 上 默认 值 为 5 分 钟 。 
RFC 1122 要 求 应 用 程序 必须 为 连接 指定 一 个 参数 ， 限 定 TCP 总 的 重 传 次 数 或 者 
TCP 试 图 发 送 数 据 的 总 时 间 。 这 个 参数 如 果 设 为 “无 限 *”， 那 么 TCP 永 不 会 放弃 ， 还 
可 能 不 允许 终端 用 户 终 止 连接 。 
在 代码 中 可 看 到 ，Net/3 不 支持 应 用 程序 的 上 述 控制 权 : TCP 放 弃 传 输 之 前 的 重 
传 次数 是 固定 的 (12)， 所 用 的 总 时 间 取 决 于 RIT。 
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图 25-26 给 出 了 重 传 超时 case 语 名 的 前 半 部 分 。 


140 六 tcp timer.c 

141 * Retransmission timer went off. Message has not 

142 * been acked within retransmit interval. Back off 

143 * to a longer retransmit interval and retransmit one segment. 

144 */ 

145 case TCPT, REXMT: 

146 if (++tp->t_rxtshift > TCP MAXRXTSHIFT) ( 

147 ` tp->t_rxtshift = TCP_MAXRXTSHIFT; 

148 tcpstat.tcps_timeoutdrop++; 

149 tp = tcp drop(tp, tp->t_softerror ? 

150 tp->t_softerror : ETIMEDOUT); 

151 break; 

152 } 

153 tepstat.tcps_rexmttimeo++; 

154 rexmt = TCP_REXMTVAL (tp) * tcp_backoff[tp->t_rxtshift]; 

155 TCPT_RANGESET (tp->t_rxtcur, rexmt, 

156 tp->t_rttmin, TCPTV REXMTMAX); 

157 tp-»t timer[TCPT REXMT] = tp-»t rxtcur; 

158 ` /* 

159 * If losing, let the lower level know and try for 

160 * a better route. Also, if we backed off this far, 

161 * our srtt estimate is probably bogus.  Clobber it 

162 * so we'll take the next rtt measurement as our srtt; 

163 * move the current srtt into rttvar to keep the current 

164 * retransmit times until then. 

165 */ 

166 if (tp-»t rxtshift > TCP MAXRXTSHIFT / 4) ( 

167 in, losing(tp-»t inpcb); 

168 tp-»t.rttvar += (tp-»t srtt >> TCP RTT SHIFT); 

169 tp-»t srtt = 0; 

170 H 

171 tp-»snd nxt = tp-»snd una; 

172 /* 

173 * If timing a segment in this window, stop the timer. 

174 */ 

175 tp-»t rtt - 0; . 
tcp timer.c 





图 25-26 tcp_timers 函 数 : 重 传 定时 器 超时 ， 前 半 部 分 


1. 递增 移 位 计数 器 
146 重 传 移 位 计数 器 (t_rxtshift) 在 每 次 重 传 时 递增 ， 如 果 大 于 12(TCP_MRAXRXTSHIEFT)， 
连接 将 被 丢弃 。 图 25-25 给 出 了 t_rxtshift 每 次 重 传 时 的 取 值 。 请 注意 两 种 丢弃 连接 的 区 别 ， 
由 于 收 不 到 对 端 对 已 发 送 数据 报 文 的 确认 而 造成 的 丢弃 连接 ， 和 由 于 保 话 定时 器 的 作用 ， 在 
长 时 间 空 闲 且 收 不 到 对 端 响应 时 丢弃 连接 。 两 种 情况 下 ，TCP 都 会 向 应 用 进程 报告 
ETIMEDOUT 差 错 ， 除 非 连 接收 到 了 一 个 软 错误 。 

2. 丢弃 连接 
147-152 ” 软 错 误 指 不 会 导致 TCP 终 止 已 建立 的 连接 或 正 试图 建立 的 连接 的 错误 ， 但 系统 会 
记录 出 现 的 软 错误 ， 以 备 TCP 将 来 放弃 连接 时 参考 。 例 如 ， 如 果 TCP 重 传 SYN 报 文良 ， 试 图 建 
立新 的 连接 ， 但 未 收 到 响应 ，TCP 将 向 应 用 进程 报告 ETIMEDOUT 差 错 。 但 如 果 在 重 传 期 间 ， 
收 到 一 个 ICMP“ 主 机 不 可 达 ” 差 错 代 码 ，tcp_notify 会 华 t_softerror 中 存储 这 一 软 错 
误 。 如 果 TCP 最 终 决 定 放 弃 重 传 ， 返 回 给 应 用 进程 的 差错 代码 将 为 EHOSTUNREACH， 而 不 是 
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ETIMEDOUT， 从 而 向 应 用 进程 提供 了 更 多 的 信息 。 如 果 TCP 发 送 SYN 后 ， 对 端的 响应 为 RST， 
这 是 个 硬 错误 ， 连 接 立 即 被 终止 ， 返 回 差错 代码 ECONNREFUSED( 图 28-18)。 

3. 计算 新 的 RTO 
153-157 利用 TCP_REXMTVAL 宏 实现 指数 退 避 ， 计 算 新 的 RTO 值 。 代 码 中 ， 给 定 报 文 第 一 
次 重 传 时 t_rxtshift 等 于 1， 因 此 ，RTO 值 为 TCP_REXMTVAL 计 算 值 的 两 倍 。 新 的 RTO 值 
存储 在 t_rxtcur 中 ， 供 连接 的 重 传 定时 器 一 一 tt_timerfTCPT_REXMT] 一 一 使 用 ， 
tcp_input 在 启动 重 传 定时 器 时 会 用 到 它 ( 图 28-12 和 图 29-6)。 

4. 向 IP 询 问 更 换 路 由 
158-167 如 果 报 文 段 已 重 传 4 次 以 上 ，in_losing 将 释放 缓存 中 的 路 由 (如 果 存 在 )， 
tcp_output 再 次 重 传 该 报 文 时 (图 25-27 中 case 语 句 的 结尾 处 )， 将 选择 一 条 新 的 ， 也 许 好 一 
些 的 路 由 。 从 图 25-25 可 看 到 ， 每 次 重 传 定时 器 超时 时 ， 如 果 重 传 时 限 已 超过 22.5 秒 ， 将 调用 
in. losing. 

5. 清除 RTT 估 计 器 
168-170 ”代码 中 ， 已 平滑 的 RTT 估 计 器 (t_srtt) 被 置 为 0(t_newtcpcb 中 曾 将 其 初始 化 为 
0)， 强 迫 tcp_xmit_timer 将 下 一 个 RTT 测 量 值 做 为 已 平滑 的 RTT 估 计 器 ， 这 是 因为 报 文 段 
重 传 次 数 已 超过 4 次 ， 意 味 着 TCP 的 已 平滑 的 RTT 估 计 器 可 能 已 失效 。 若 重 传 定时 器 再 次 超时 ， 
进入 case 语 句 后， 将 利用 TCP_REXMTVAL 计 算 新 的 RTO 值 。 由 于 t_srtt 被 置 为 0， 新 的 计 
算 值 应 与 本 次 重 传 中 的 计算 值 相 同 ， 再 利用 指数 退 避 算法 加 以 修正 (图 25-28 中 ， 在 42.464 秒 处 
的 重 传 很 好 地 说 明了 上 面 讨论 的 概念 )。 

再 次 计算 RTO 时 ， 利 用 公式 


| t srtt 


RTO *t rttvar 


由 于 t_srtt 等 于 0，R7O 取 值 不 变 。 如 果 报 文 的 重 传 定时 器 再 次 超时 (图 25-28 中 从 84.064 
秒 到 217.84 秒 )，case 语 句 再 次 被 执行 ，t_srtt 等 于 0，t_rttvar 不 变 。 

6. 强迫 重 传 最 早 的 未 确认 数据 
171 ”下 一 个 发 送 序号 (snd_nxt) 被 置 为 最 早 的 未 确认 的 序号 (snd_una)。 回 想 图 24-17 中 ， 
sngd_nxt 大 于 snd_una。 把 snd_nxt 回 移 ， 将 重 传 最 早 的 未 确认 过 的 报 文 。 

7. Karn 算 法 
172-175 ”RTT 计数 器 ，t_rtt， 被 置 为 9。Karn 算 法 认为 由 于 该 报 文 即将 重 传 ， 对 该 报 文 的 
计时 也 就 失去 了 意义 。 即 使 收 到 了 ACK， 也 无 法 区 分 它 是 对 第 一 次 报 文 ， 还 是 对 第 二 次 报 文 
的 确认 。[Karn and Partridge 1987] 和 卷 1 的 21.3 节 中 都 介绍 了 这 一 算法 。 因 此 ，TCP 只 对 未 重 
传 报 文 计时 ， 利 用 t_rtt 计 数 器 得 到 样本 值 ， 并 据 此 修正 RTT 估 计 器 。 在 后 面 的 图 29-6 中 将 
看 到 ， 如 何 使 用 RFC 1323 的 时 间 礁 功能 取代 Karmn 算 法 。 


25.11.1 慢 起 动 和 避免 拥塞 


图 25-27 给 出 了 case 语 句 的 后 半 部 分 ， 实 现 慢 起 动 和 避免 拥塞 ， 并 重 传 最 早 的 未 确认 过 
的 报 文 。 

由 于 重 传 定时 器 超时 ， 网 络 中 很 可 能 发 生 了 拥 寒 。 这 种 情况 下 ， 需 要 用 到 TCP 的 拥塞 避 
免 算法 。 如 果 最 终 收 到 了 对 端 发 送 的 确认 ，TCP 采 用 慢 起 动 算法 以 较 慢 的 速率 继续 进行 数据 
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传输 。 卷 1 的 20.6 节 和 21.6 节 详细 讨论 了 这 两 种 算法 。 
176-205 win 被 置 为 现 有 窗口 大 小 (接收 方 通告 的 窗口 大 小 snd_wnd 和 发 送 方 拥塞 窗口 大 小 
snd_cwnd， 两 者 之 中 的 较 小 值 ) 的 一 半 ， 以 报 文 为 单位 ， 而 非 字 节 ( 因 此 除 以 t_maxseg)， 
最 小 值 为 2。 它 的 值 等 于 网 络 拥塞 时 现 有 窗口 大 小 的 一 半 ， 也 就 是 慢 起 动 门限 ， 
t_ssthresh( 以 字 节 为 单位 ， 因 此 乘 以 t_maxseq)。 拥 塞 窗口 的 大 小 ，snd_cwnd， 被 置 为 
只 容纳 1 个 报 文 ， 强 迫 热 行 慢 起 动 。 上 述 做 法 假定 造成 网 络 拥塞 的 原因 之 一 是 本 地 数据 发 送 太 
快 ， 因 此 在 拥塞 发 生 时 ， 必 须 降 低 发 送 窗口 大 小 。 
这 段 代 码 放 在 一 对 括号 中 ， 是 因为 它 是 在 4.3BSD 和 Net/1 实 现 之 间 添 加 的 ， 并 要 

求 有 自己 的 局 部 变量 (win)。 
206 连续 重复 ACK 计 数 器 ，t_dupacks (用 于 29.4 节 中 将 介绍 的 快速 重 传 算法 ) 被 置 为 0。 我 
们 将 在 第 29 章 中 介绍 它 在 TCP 快 速 重 传 和 快速 恢复 算法 中 的 用 途 。 
208 tcp_output 重 新 发 送 包 含 最 早 的 未 确认 序号 的 报 文 ， 即 由 于 重 传 定时 器 超时 引发 了 
报 文 重 传 。 


176 7 tcp. timer.c 

177 * Close the congestion window down to one segment 

178 * (we'll open it by one segment for each ack we get). 

179 * Since we probably have a window's worth of unacked 

180 * data accumulated, this "slow start" keeps us from 

181 * dumping all that data as back-to-back packets (which 

182 * might overwhelm an intermediate gateway). 

183 * 

184 * There are two phases to the opening: Initially we 

185 * open by one mss on each ack. This makes the window 

186 * size increase exponentially with time. If the 

187 * window is larger than the path can handle, this 

188 * exponential growth results in dropped packet(s) 

189 * almost immediately. To get more time between 

190 * drops but still "push" the network to take advantage 

191 * of improving conditions, we switch from exponential 

192 * to linear window opening at some threshhold size. 

193 * For a threshhold, we use half the current window 

194 * size, truncated to a multiple of the mss. 

195 * 

196 * (the minimum cwnd that will give us exponential 

197 * growth is 2 mss. We don't allow the threshhold 

198 * to go below this.) 

199 */ 

200 ( 

201 u int win = min(tp-»snd wnd, tp-»snd cwnd) / 2 / tp-»t maxseg; 

202 if (win « 2) 

203 win - 2; 

204 tp-»snd,cwnd = tp-»t,maxseg; 

205 tp-»-snd,ssthresh = win * tp-»t maxseg; 

206 tp-»t dupacks = 0;- 

207 } 

208 (void) tcp output (tp) ; 

209 break; . ` 
tcp. timer.c 


图 25-27 tcp_timer 函 数 : 重 传 定时 器 超时 ， 后 半 部 分 
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25.11.2 精确 性 


TCP 维 护 的 这 些 估计 器 的 精确 性 如 何 呢 ? 首先 应 指出 ， 因 为 RIT 以 500 ms 为 测量 单位 ， 是 
非常 不 精确 的 。 已 平 请 的 RTT 估 计 器 和 平均 偏差 的 精确 性 要 高 一 些 (缩放 因子 为 8 和 4)， 但 也 不 
够 ，LAN 的 RTT 是 毫秒 级 ， 横 跨 大 陆 的 RTT 约 为 60ms 左 右 。 这 些 估计 器 仅仅 给 出 了 RTT 的 上 
限 ， 从 而 在 设 定 重 传 定时 器 上 时， 可 以 不 考虑 由 于 重 传 时 限 过 小 而 造成 不 必要 的 重 传 。 

[Brakmo, O'Malley, and Peterson 1994] 描 述 的 TCP 实 现 ， 能 够 提供 高 精度 的 RTT 样 本 。 他 
们 的 做 法 是 ， 发 送 报 文 段 时 记录 系统 时 钟 读数 (精度 比 以 500 ms 为 测量 单位 要 高 得 多 )， 收 到 
ACK 时 再 次 读 取 系统 时 钟 ， 从 而 得 到 高 精度 的 RTT。 

Net/3 支 持 的 时 间 堆 功能 (26.6 节 ) 本 来 可 以 提供 较 高 精度 的 RTT， 但 Net/3 将 时 间 堆 的 精度 
也 定 为 500 ms。 


25.12 一 个 RTT 的 例子 


下 面 过 论 一 个 具体 的 例子 ， 说 明 上 述 计算 是 如 何 进行 的 。 我们 从 主机 bsai 向 
vangogh .cs.berkeley .edu 发 送 12288 字 节 的 数据 。 在 发 送 过程 中 ， 赦 意 断 开工 作 中 的 
PPP 链 路 ， 之 后 再 恢复 ， 看 看 TCP 如 何 处 理 报 文 的 超时 与 重 传 。 为 发 送 数据 ， 我 们 运行 自己 的 
sock 程 序 (参见 卷 1 的 附录 C)， 加 -D 选 项 ， 置 位 播 口 的 So_DEBUG 选 项 (27.10 节 )。 传 输 结束 后 ， 
运行 trpt (8) 程 序 检 查 留 在 内 核 的 环形 缓存 中 的 调试 记录 ， 之 后 打印 TCP 控 制 块 中 我 们 感 兴 
趣 的 时 钟 变量 。 

图 25-28 列 出 了 各 变量 在 不 同时 刻 的 值 。 我 们 用 M: N 表 示 序 号 M~N-1 已 被 发 送 。 本 例 中 
的 每 个 报 文 段 都 携带 了 512 字 节 的 数据 。 符 号 “ACK M” 表 示 ACK 报 文 的 确认 字段 为 M。 标 
注 “ 实 际 差 值 (ms)” 栏 列 出 了 RTT 定 时 器 打开 时 刻 和 关闭 时 刻 间 的 时 间 差 值 。 标 注 “rtt ( 参 
数 )” 栏 列 出 了 调用 tcp_xmit_timer 时 第 二 个 参数 的 值 :' RTT 定 时 器 打开 时 刻 和 关闭 时 刻 
间 的 滴答 数 再 加 1。 

tcp_newtcpcb 园 数 完成 t_srtt、t_rttvar 和 t_rxtcur 的 初始 化 ， 时 刻 0.0 对 应 的 
即 为 变量 初始 值 。 

第 一 个 计时 报 文 是 最 初 的 SYN 报 文 ， 365 ms 后 收 到 了 对 端的 ACK, 调用 tcp_xmit_timer,， 
rtt 参 数值 为 2。 由 于 这 是 第 一 个 RTT 测 量 值 (t_srtt=0)， 执 行 图 25-23 中 的 else 语 句 ， 计 算 
RTT 估 计 器 初始 值 。 

携带 1~512 字 节 的 数据 报 文 是 第 二 个 计时 报 文 ，1.259 秒 时 收 到 对 应 的 ACK，RTT 估 计 器 
被 更 新 。 

从 接 下 来 的 三 个 报 文 可 看 出 ， 连 续 报 文 是 如 何 被 确认 的 。1.260 秒 时 发 送 携 带 513~1024 字 
节 的 报 文 ， 并 启动 定时 器 。 之 后 又 发 送 了 携带 1025~1526 字 节 的 报 文 ， 在 2.206 秒 时 收 到 了 对 
端的 ACK， 同 时 确认 了 已 发 送 的 两 个 报 文 。RTT 估 计 器 被 更 新 ， 因 为 ACK 确 认 了 正 计时 报 文 
的 起 始 序号 (513)。 

2.206 秒 时 发 送 携带 1537~2048 字 节 的 报 文 ， 并 启动 定时 器 。3.132 秒 时 收 到 对 应 的 ACK,， 
RTT 估 计 器 被 更 新 。 

对 3.132 秒 时 发 送 的 报 文 段 计时 ， 重 传 定时 器 设 为 5 个 滴答 (t_rxtcur 的 当前 值 )。 这 时 ， 
路 由 器 sun 和 netb 间 的 PPP 链 路 中 断 ， 几 分 钟 后 恢复 正常 。 重 传 定时 器 在 6.064 秒 超时 ， 执 行 
图 25-26 中 的 代码 更 新 RTT 变 量 。t_rxtshift 从 0 增 至 1，t_rxtcur 置 为 10 个 滴答 (指数 退 
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避 )， 重 传 最 早 的 未 确认 过 的 序号 (snd_una=3073)。5 秒 钟 后 ， 定 时 器 再 次 超时 ， 
t_rxtshift 递 增 为 2， 重 传 定时 器 设 为 20 个 宰 答 。 


rtt t_srt t rttvar|t rxtcur t rxtshift 
参数 | (8 个 滴答 ) | (4 个 滴答 )| (滴答 ) | 一 


513:1025 
1025:1537 


1537:2049 
2049:2561 
2561:3073 
ack 2049 


ack 2561 
ack 3073 


ack 7169 











6145:6657 
6657:7169 





7169:7681 
7681:8193 





8193:8705 
ack 7681 
8705:9217 
ack 8705 
9217:9729 
9729:10241 
10241:10753 
ack 9217 
10753:11265 
ack 9729 
11265:11777 
ack 10241 
11777:12289 





ack 10753 
ack 11265 


图 25-28 实例 中 的 RTT 变 量 值 和 估计 器 


42.464 秒 时 ， 重 传 定 时 器 再 次 超时 ，t_srtt 清 零 ，t_rttvar 置 为 5。 我 们 在 图 25-26 的 
讨论 中 提 到 过 ， 此 时 t_rxtcur 运 算得 到 的 结果 相同 (因此 ， 下 一 次 运算 的 结果 应 为 160)。 但 
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由 于 t_srtt 重 置 为 0， 下 一 次 更 新 RTT 佑 计 器 时 (218.834 秒 )， 与 建立 一 条 新 的 连接 相 类 似 ， 
得 到 的 RTT 测 量 值 将 成 为 新 的 已 平滑 的 RTT 估 计 器 。 
之 后 继续 进行 数据 传输 ， 并 且 又 多 次 更 新 了 RTT 估 计 器 。 


25.13 小 结 


内 核 每 隔 200 ms 和 500 ms， 分 别 调用 cp_fasttimo 国 数 和 tcp_slowtimo 国 数 。 这 两 
个 函数 负责 维护 TCP 为 连接 建立 的 各 种 定时 器 。 

TCP 为 每 条 连接 维护 下 列 7 个 定时 器 : 

。 连接 建立 定时 器 ; 

* 重 传 定时 器 ; 

“延迟 ACK 定 时 器 ; 

。 持续 定时 器 ; 

。FIN_WAIT_2 定 时 器 : 

。2MSL 定 时 器 ; 

延迟 ACK 定 时 器 与 其 他 6 个 定时 器 不 同 ， 设 置 它 时 意味 着 下 一 次 TCP200 ms 定时 器 超时 时 ， 
延迟 的 ACK 报 文 必 须 被 发 送 。 其 他 6 个 定时 器 都 是 计数 器 ， 每 次 TCP 500 ms 定时 器 超时 时 ， 
计数 器 减 1。 任 何 一 个 计数 器 减 为 0 时 ， 触 发 TCP 完 成 相应 动作 : 丢弃 连接 、 重 传 报 文 、 发 送 
连接 探测 报 文 等 等 ， 这 些 内 容 本 章 中 都 有 详细 讨论 。 由 于 某 些 定时 器 是 彼此 互 斥 的 ， 代 码 用 4 
个 计数 器 实现 了 这 6 个 定时 器 ， 复 杂 性 有 所 增加 。 

本 章 还 介绍 了 重 传 定时 器 取 值 的 标准 计算 方法 。TCP 为 每 条 连接 维护 两 个 RTT 估 计 器 : 已 
平滑 的 RTT 估 计 器 (srtO 和 已 平 请 的 RTT 平 均 偏 差 估 计 器 (rtrvar)。 尽 管 算法 简单 铺 楚 ， 但 由 于 
使 用 了 缩放 因子 (在 不 使 用 内 核 浮 点 运算 的 情况 下 保证 足够 的 精度 )， 使 得 代码 较为 复杂 。 


习题 


25.1 TCP 快 速 超时 处 理 函 数 的 效率 如 何 ? (提示 : 参考 图 24-5 中 列 出 的 延迟 ACK 的 次 数 ) 
有 没有 另外 的 实现 方式 ? | 
25.2 为 什么 在 tcp._slowtimo 亢 数 ， 而 不 是 在 tcp_init 国 数 中 初始 化 tcp_maxidle? 
25.3 ”tcp_slowtimo 递 增 t_idle， 前 面 已 介绍 过 t_idle 用 于 计数 从 连接 上 收 到 最 后 
一 个 报 文 起 到 当前 为 止 的 滴答 数 。TCP 是 否 需 要 计数 从 连接 上 发 送 最 后 一 个 报 文 段 起 计时 的 
空闲 时 间 ? 
25.4 重 写 图 25-10 中 的 代码 ， 分 离 TCPT_2MSL 计 数 器 两 种 不 同 用 法 的 处 理 逻 辑 。 
25.5 图 25-12 中 ， 连 接 进 入 FIN_WIN_2 状 态 75 秒 后 收 到 一 个 重复 的 ACK。 会 发 生 什么 ? 
25.6 应 用 程序 设置 SO_KEEPALIVE 选 项 时 连接 已 空间 了 1 小 时 。 第 一 次 连接 探测 报 文 在 
何 时 发 送 ，1 小 时 后 还 是 2 小 时 后 ? 
25.7 为 什么 tcp_rttdflt 是 一 个 全 局 变量 ， 而 非常 量 ? 
25.8 重 写 与 习题 25.6 有 关 的 代码 ， 实 现 另 一 种 结果 。 
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函数 tcp_output 负 责 发 送 报 文 段 ， 代 码 中 有 很 多 地 方 都 调用 了 它 。 

tcp_usrreq 在 多 种 请 求 处 理 中 调用 了 这 一 函数 : 处 理 PRU_CONNECT， 发 送 初始 
SYN; 处 理 PRU_SHUTDOWN， 发 送 FIN; 处 理 PRU_RCVD， 应 用 进程 从 插口 接收 缓存 中 读 取 
若干 数据 后 可 能 需要 发 送 新 的 窗口 大 小 通告 ; 处 理 PRU_SEND， 发 送 数据 ; 处 理 
PRU_SENDOOB， 发 送 带 外 数据 。 

。tcp_fasttimo 调 用 它 发 送 延 迟 的 ACK; 

。tcp_timers 在 重 传 定时 器 超时 时 ， 调 用 它 重 传 报 文 段 ; 

。tcp_timers 在 持续 定时 器 超时 时 ， 调 用 它 发 送 窗口 探测 报 文 段 ; 

。tcp_drop 调 用 它 发 送 RST; 

。tcp_disconnect 调 用 它 发 送 FIN; 

。tcp_input 在 需要 输出 或 需要 立即 发 送 ACK 时 调用 它 ; 

。tcp_input 在 收 到 一 个 纯 ACK 报 文 段 且 本 地 有 数据 发 送 时 调用 它 ( 纯 ACK 报 文 段 指 不 携 

带 数 据 ， 只 确认 已 接收 数据 的 报 文 段 ); 

。tcp_input 在 连续 收 到 3 个 重复 的 ACK 时 ， 调 用 它 发 送 一 个 单一 报 文 段 (快速 重 传 算 

法 ); 

tcp_input 首 先 确 定 是 否 有 报 文 段 等 待 发 送 。 除 了 存在 需要 发 往 连接 对 端的 数据 外 ， 
TCP 输 出 还 受到 其 他 许多 因素 的 控制 。 例 如 ， 对 端 可 能 通告 接收 窗口 为 零 ， 阻 止 TCP 发 送 任何 
Bug. Nagle 算法 阻止 TCP 发 送 大 量 小 报 文 段 ; 人 慢 启动 和 避免 拥塞 算法 限制 TCP 发 送 的 数据 量 。 
相反 ， 有 些 函 数 置 位 一 些 特殊 标志 ， 强 迫 Ecp_output 发 送 报 文 段 ， 如 TF_ACKNOW 标 志 置 位 
意味 着 必须 立即 发 送 一 个 ACEK。 如 果 上 cp_output 确 定 不 发 送 某 个 报 文良 ， 数 据 ( 如 果 存 在 ) 
将 保留 在 插口 的 发 送 缓存 中 ， 等 待 下 一 次 调用 该 函数 。 


26.2 tcp_output 概 述 


tcp_output 函 数 很 大 ， 我 们 将 分 14 个 部 分 予以 讨论 。 图 26-1 给 出 了 函数 的 框架 结构 。 

1. 5 3 BERE ACK? 
61. iR EXEAT (sna mo05 TEE RRAS (snd una), HIASEROH Rm 
发 送 ACK，idle 为 真 。 图 24-17 中 ，idle 应 为 假 ， 因 为 序号 4~6 已 发 送 但 还 未 被 确认 ，ITCP 
在 等 待 对 端 发 送 对 上 述 序号 的 确认 。 

2. 返回 慢 启 动 
62-68 ”如 果 TCP 不 等 待 对 端 发 送 ACK， 而 且 在 一 个 往返 时 间 内 也 没有 收 到 对 端 发 送 的 其 他 
RLE, 设置 拥塞 窗口 为 仅 能 容纳 一 个 报 文身 (t_maxseg 字 节 )， 从 而 在 发 送 下 一 个 报 文 段 时 ， 
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强迫 执行 慢 启 动 算法 。 如 果 数 据 传输 中 出 现 了 显著 的 停顿 (“显著 ” 指 停顿 时 间 超 过 RTT)， 说 
明 与 先前 测量 RTT 时 相 比 ， 网 络 条 件 己 发 生 了 变化 。NetU3 假 定 出 现 了 最 坏 情况 ， 因 而 返回 慢 





43 int tcp output.c 
44 tcp output (tp) 
45 struct tcpcb *tp; 
46 ( 
47 struct socket *so = tp-»t inpcb-»inp socket; 
48 long len, win; 
49 int off, flags, error; 
50 struct mbuf *m; 
51 struct tcpiphdr *ti; 
52 u_char Oopt[MAX TCPOPTLEN]; 
53 unsigned optlen, hdrlen; 
54 int idle, sendalot; 
55 /* 
56 * Determine length of data that should be transmitted 
57 * and flags that will be used. 
58 * If there are some data or critical controls (SYN, RST) 
59 * to send, then transmit; otherwise, investigate further. 
60 */ 
61 idle = (tp-»snd max == tp-»snd una); 
62 if (idle && tp-»t idle >= tp-»t rxtcur) 
63 /* 
64. * We have been idle for "a while" and no acks are 
65 * expected to clock out any data we send -- 
66 * slow start to get ack "clock" running again. 
67 */ 
68 tp-»-snd cwnd = tp-»t maxseg; 
69 again: 
70 Sendalot - 0; /* set nonzero if more than one segment to output */ 
/* look for a reason to send a segment;  */ 
/* goto send if a segment should be sent */ 
218 /* 
219 * No reason to send a segment, just return. 
220 */ 
221 return (0); 
222 send: 
/* form output segment, call ip output() */ 
489 if (sendalot) 
490 goto again; 
491 return (0); 
492 ) tcp. output.c 





图 26-1 tcp_output 函 数 : 框架 结构 


3. 发 送 多 个 报 文 段 


69-70 


控制 跳 转 至 send 后 ， 调 用 ip_output 发 送 一 个 报 文 段 。 但 如 果 ip_output 确 定 有 
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多 个 报 文 段 需 要 发 送 ，sendalot 置 为 1， 图 数 将 试图 发 送 另 一 个 报 文 段 。 因 此 ，ip_output 
的 一 次 调用 能 够 发 送 多 个 报 文 段 。 


26.3 决定 是 否 应 发 送 一 个 报 文 段 


某 些 情况 下 ， 在 报 文 段 准备 好 之 前 已 调用 了 tcp_output。 例 如 ， 当 播 口 层 从 插口 的 接 
收 缓存 中 移 走 数据 ， 传 递 给 用 户 进程 时 ， 会 生成 PRU_RCVD 请 求 。 尽 管 不 一 定 ， 但 完全 有 可 
能 因为 应 用 进程 取 走 了 大 量 数据 ， 而 使 得 TCP 有 必要 发 送 新 的 窗口 通告 。 上 cp_output 的 前 
半 部 分 确定 是 否 存在 需要 发 往 对 端的 报 文 段 。 如 果 没 有 ， 则 函数 返回 ， 不 执行 发 送 操作 。 

图 26-2 给 出 了 判定 “是 否 有 报 文 段 发 送 ” 测 试 代码 的 第 一 部 分 。 
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off - tp-»snd nxt - tp-»snd una; tcp-output.c 
win = min(tp-»snd wnd, tp-»snd, cwnd); 
flags = tcp .outflags[tp-»t state]; 
/ * 
* If in persist timeout with window of 0, send 1 byte. 
* Otherwise, if window is small but nonzero 
* and timer expired, we will send what we can 
* and go to transmit state. 
*/ 
if (tp-»t force) ( 
if (win == 0) ( 
/ * 
* If we still have some data to send, then 
* clear the FIN bit. Usually this would 
* happen below when it realizes that we 
* aren't sending all the data. However, 
* if we have exactly 1 byte of unsent data, 
* then it won't clear the FIN bit below, 
* and if we are in persist state, we wind 
* up sending the packet without recording 
* that we sent the FIN bit. 
* 
* We can't just blindly clear the FIN bit, 
* because if we don't have any more data 
* to send then the probe will be the FIN 
* itself. 
*/ 
if (off « so-»so snd.sb cc) 
flags &- "TH, FIN; 
win = 1; 
) else ( 
tp-»t timer[TCPT PERSIST] = 0; 
tp-»t rxtshift - 0; 
} 
) tcp output.c 


图 26-2 tcp_output 函 数 : 强迫 数据 发 送 


71-72 off 指 从 发 送 缓存 起 始 处 算 起 指向 第 一 个 待 发 送 字 节 的 偏 移 量 ， 以 字 节 为 单位 。 它 指 
向 的 第 一 个 字 节 为 snd_una( 已 发 送 但 还 未 被 确认 的 字 节 )。 
win 是 对 端 通告 的 接收 窗口 大 小 (snd_wnd) 与 拥塞 窗口 大 小 (snd_cwngd) 间 的 最 小 值 。 
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73 ”图 24-16 给 出 了 tcp_outf1ags 数 组 ， 数 组 值 取决 于 连接 的 当前 状态 。f1ags 包 括 下 列 
示 志 比特 的 组 合 : TH_ACK、TH_FIN、TH_RST 和 TH_SYN， 分 别 表 示 需 向 对 端 发 送 的 报 文 段 
类 型 。 其 他 两 个 标志 比特 ，TH_PUSH 和 TH_URG， 如 果 需 要 ， 在 报 文 段 发 送 之 前 加 入 ， 与 前 4 
个 标志 比特 是 逻辑 或 的 关系 。 

74-105 七 _force 标 志 非 零 表 示 持 续 定时 器 超时 ， 或 者 有 带 外 数据 需要 发 送 。 这 两 种 条 件 
下 ， 调 用 tcp_output 的 代码 均 为 : 


tp-»t force = 1; 
error = tcp output(ítp); 
-p-»t, force = 0; 


从 而 强迫 TCP 发 送 数 据 ， 尽 管 在 正常 情况 下 不 会 执行 任何 发 送 操作 。 

如 果 win 等 于 0， 连 接 处 于 持续 状态 (因为 t_force 非 零 )。 如 果 此 时 插口 的 发 送 缓 存 中 还 
存在 数据 ， 则 FIN 标 志 被 清除 。win 必 须 置 为 !， 以 强迫 发 送 一 个 字 节 的 数据 。 

如 果 win 非 零 ， 即 有 带 外 数据 需要 发 送 ， 则 持续 定时 器 复位 ， 指 数 退 避 算 法 的 索引 ， 
t rxtshiftWk E X0. 

图 26-3 给 出 了 tcp_output 的 下 一 模块 ， 计 算 发 送 的 数据 量 。 


- - tcp. output.c 
106 len = min(so-»so snd.sb cc, win) - off; 
107 if (len « 0) ( 
108 /* 
109 * If FIN has been sent but not acked, 
110 * but we haven't been called to retransmit, 
111 * len will be -1. Otherwise, window shrank 
112 * after we sent into it. If window shrank to 0; 
113 * cancel pending retransmit and pull snd nxt 
114 * back to (closed) window. We will enter persist 
115 * state below. If the window didn't close completely, 
116 * just wait for an ACK. 
117 */ 
118 len = 0; 
119 if (win == 0) ( 
120 tp-»t timer[TCPT REXMT] = 0; 
121 tp-»snd,nxt = tp-»snd una; 
122 ) 
123 ) 
124 if (len > tp-»t,.maxseg) ( 
125 len = tp-»t maxseg; 
126 sendalot = 1; 
127 ) 
128 if (SEQ LT(tp-»snd nxt + len, tp-»snd,una + so-»So, snd.sb cc)) 
129 flags &- "TH FIN; ` 
130 win = sbspace(&so-»so rcv); 

tcp_output.c 


图 26-3 tcp_output 函 数 : 计算 发 送 的 数据 量 
1. 计算 发 送 的 数据 量 
106 1len 等 于 发 送 缓存 中 比特 数 和 win( 对 端 通告 的 接收 窗口 与 拥塞 窗口 间 的 最 小 值 ， 强 人 迫 
TCP 发 送 数据 时 也 可 能 等 于 1 字 节 )， 两 者 间 的 最 小 值 碱 去 off。 减 去 off 是 因为 发 送 缓存 中 的 
许多 字 节 已 发 送 过 ， 正 等 待 对 端的 确认 。 
2. 窗口 缩小 检查 
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107-117 ”造成 len 小 于 零 的 一 种 可 能 情况 是 接收 方 缩 小 了 窗口 ， 即 接收 方 把 窗口 的 右 界 移 
向 左 侧 ， 下 面 的 例子 说 明了 这 种 情况 。 开 始 时 ， 接 收 方 通告 接收 窗口 大 小 为 6 字 节 ，fCP 发 送 
报 文 段 ， 携 带 字 节 4、5 和 6。 紧 接着 ，TCP 又 发 送 一 个 报 文 段 ， 携 带 字 节 7、8 和 9。 图 26-4 显 
示 了 两 个 报 文 段 发 送 后 本 地 的 状态 。 


snd_wnd=6: 接收 窗口 


(由 接收 方 通告 ) 
1 2 3 4 5 6 | 7 8 9 
发 送 ， 尚 未 确认 
snd una-4 snd nxt - 10 
最 早 的 未 确认 的 下 一 个 发 送 序 号 


序号 


图 26-4 发 送 4~9 字 节 后 的 本 地 发 送 缓存 


之 后 ， 收 到 一 个 ACK， 确 认 序号 字段 为 7( 确 认 所 有 序号 小 于 7 的 数据 ， 包 括 字 节 6)， 但 窗 
口 字段 为 1。 接 收 方 缩小 了 接收 窗口 ， 此 时 本 地 的 状态 如 图 26-5 所 示 。 


snd wnd=1 


发 送 ， 尚 未 确认 
snd una=7 snd nxt =10 


最 早 的 未 确认 过 下 一 个 发 送 序号 
的 序号 


图 26-5 收 到 4~7 字 节 的 确认 后 ， 本 地 发 送 缓存 
窗口 缩小 后 ， 执 行 图 26-2 和 图 26-3 中 的 计算 ， 得 到 : 


off = snd nxt - snd una = 10- 7 - 3 
win - 1 
len = min(so snd.sb cc, win) -off = min(3, 1) - 3 = -2 


假定 发 送 缓存 仅 包含 字 节 7、8 和 9。 

RFC 793 和 RFC 1122 都 非常 不 赞成 缩小 窗口 。 尽 管 如 此 ， 具 体 实 现 必须 考虑 这 一 
问题 并 加 以 处 理 。 这 种 做 法 遵 往 了 在 RFC 791 中 首次 提出 的 稳健 性 原则 : “对 接收 报 
文 段 的 假设 尽量 少 一 些 ， 对 发 送 报 文 段 的 限制 尽量 多 一 些 ”。 
造成 Len 小 于 0 的 另 一 种 可 能 情况 是 ， 已 发 送 过 FIN， 但 还 未 收 到 确认 (见习 题 26.2)。 图 

26-6 给 出 了 这 种 情况 。 
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已 发 送 和 确认 à à 
snd, una - 10 snd_nxt = l1 
最 早 的 未 确 ”下 一 个 发 送 序 号 
认 过 的 序号 


图 26-6 字 节 1~9 已 发 送 并 收 到 对 端 确认 ， 之 后 关闭 连接 


图 26-6 是 图 26-4 的 继续 ， 假 定 字 节 7~9 已 被 确认 ，snd_una 的 当前 值 为 10。 应 用 进程 随后 
关闭 连接 ， 向 对 端 发 送 FIN。 在 本 章 后 续 部 分 将 看 到 ，TCP 发 送 FIN 时 ，snqd_nxt 将 增加 1( 因 
为 FIN 也 需要 序号 )， 在 本 例 中 ，snG_nxt 将 等 于 11， 而 FIN 的 序号 为 10。 执 行 图 26-2 和 图 26-3 
中 的 计算 ， 得 到 : 
off = snd nxt - snd una = 11 - 10 = 1 
win - 6 


len min( so snd.sb cc, win ) - off = min(0, 6) - 1 = -1 


我 们 假定 接收 方 通告 接收 窗口 大 小 为 6。 这 个 假定 无 关 紧 要 ， 因 为 发 送 缓存 中 待 发 送 的 字 
节 数 (0) 小 于 它 。 | 

3. 进入 持续 状态 
118-122 1len 被 置 为 0。 如 果 对 端 通告 的 接收 窗口 大 小 为 0， 则 重 传 定时 器 将 被 置 为 0， 任 何 
等 待 的 重 传 将 被 取消 。 令 snd_nxt 等 于 snd_una， 指 针 返 回 发 送 窗口 的 最 左 端 ， 连 接 将 进入 
持续 状态 。 如 果 接 收 方 最 终 打 开 了 接收 窗口 ， 则 TCP 将 从 发 送 窗 口 的 最 左 端 开始 重 传 。 

4. 一 次 发 送 一 个 报 文 段 
124-127 如 果 需 要 发 送 的 数据 超过 了 一 个 报 文 段 的 容量 ，1en 置 为 最 大 报 文 段 长 度 ， 
sendalot 置 为 !。 如 图 26-1 所 示 ， 这 将 使 Lcp_output 在 报 文 段 发 送 完 毕 后 进入 另 一 次 循 
环 。 

5. 如 果 发 送 缓存 不 空 ， 关闭 FIN 标 志 
128-129 ”如 果 本 次 输出 操作 未 能 清空 发 送 缓存 ，FIN 标 志 必 须 被 清除 (防止 该 标志 在 flags 
中 被 置 位 )。 图 26-7 举 例 说 明了 这 一 情况 。 

so_snd.sb_cc = 1025 (发 送 缓存 ) 








1 2 e 512 513 514 e 1024 1025 
一 个 报 文 一 个 报 文 
snd una=1 snd  nxt = 513 
最 早 的 未 确认 过 下 一 个 发 送 序号 
的 序号 


图 26-7 实例 : FIN 置 位 时 ， 发 送 缓存 不 空 
这 个 例子 中 ， 第 一 个 512 字 节 的 报 文 段 已 发 送 (还 未 被 确认 )，TCP 正 准备 发 送 第 二 个 报 文 
段 (512~1024 字 节 )。 此 时 ， 发 送 缓存 中 仍 有 1 字 节 的 数据 (1025 字 节 )， 应 用 进程 关闭 了 连接 。 
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len=512( 一 个 报 文 段 )， 图 26-3 中 的 C 表 达 式 变 为 : 

SEQ LT (1025, 1026) 
如 果 表 达 式 为 真 ， 则 FIN 标 志 被 清除 ; 否则 ，TCP 无 法 向 对 端 发 送 序号 为 1025 的 字 节 。 

6. 计算 接收 窗口 大 小 
130 ”win 设 定 为 本 地 接收 缓存 中 可 用 空间 的 大 小 ， 即 TCP 向 对 端 通告 的 接收 窗口 的 大 小 。 请 
注意 ， 这 是 第 二 次 用 到 这 个 变量 。 在 函数 前 一 部 分 中 ， 它 等 于 允许 TCP 发 送 的 最 大 数据 量 ， 
但 从 现在 起 ， 它 等 于 本 地 向 对 端 通告 的 接收 窗口 的 大 小 。 

糊涂 窗口 综合 症 (简写 为 SWS， 详 见 卷 1 第 22.3 节 ) 指 连接 上 交换 的 都 是 短 报 文 段 ， 而 不 是 
最 大 长 度 报 文 段 。 这 种 现象 的 出 现 是 由 于 接收 方 通告 的 接收 窗口 过 小 ， 或 者 发 送 方 传输 了 许 
多 小 报 文 段 ， 因 此 ， 避 免 糊 涂 窗口 综合 症 ， 需 要 发 送 方 和 接收 方 的 共同 努力 。 图 26-8 给 出 了 
发 送 方 避免 糊涂 窗口 综合 症 的 做 法 。 








131 7 tcp output.c 
132 * Sender silly window avoidance. If connection is idle ! 
133 * and can send all data, a maximum segment, 
134 * at least a maximum default-sized segment do it, 
135 * or are forced, do it; otherwise don't bother. 
136 * If peer's buffer is tiny, then send 
137 * when window is atleast half open. 
138 * If retransmitting (possibly after persist timer forced us 
139 * to send into a small window), then must resend. ` 
140 */ 
141 if (len) ( 
142 if (len == tp-»t maxseg) 
143 goto send; : 
144 if ((idle || tp-»t flags & TF. NODELAY) && 
145 len + off >= so-»so, snd.sb cc) 
146 goto send; 
147 if (tp-»t force) 
148 goto send; 
149 if (len >= tp-»max sndwnd / 2) 
150 goto send; 
151 if (SEQ LT(tp-»snd,nxt, tp-»snd max)) 
152 goto send; 
153 } 
tcp_output.c 


图 26-8 tcp_output 函 数 ; 发 送 方 避免 糊涂 窗口 综合 症 


7. 发 送 方 避免 糊涂 窗口 综合 症 的 方法 

142-143 如 果 待 发 送 报 文 段 是 最 大 长 度 报 文 段 ， 则 发 送 它 。 

144-146 如 果 无 需 等 待 对 端的 ACK(idle 为 真 ), 或 者 Nagle 算 法 被 取消 (TF_NODELAY 为 真 ) 
并 且 TCP 正 在 清空 发 送 缓存 ， 则 发 送 数据 。Nagle 算 法 ( 详 见 卷 1 第 19.4 节 ) 的 思想 是 : 如 果 某 个 
连接 需要 等 待 对 端的 确认 ， 则 不 允许 TCP 发 送 长 度 小 于 最 大 长 度 的 报 文 段 。 通 过 设 定 插口 选 
项 TCP_NODELAY， 可 以 取消 这 个 算法 。 对 于 正常 的 交互 式 连接 (如 Telnet 或 Rlogin)， 即 使 连 
接 上 存在 未 确认 过 的 数据 ， 代 码 中 的 if 语句 也 为 假 ， 因 为 默认 条 件 下 TCP 会 采用 Nagle 算 法 。 - 
147-148 如果 由 于 持续 定时 器 超时 ， 或 者 有 带 外 数据 ， 强 追 TCP 执 行 发 送 操作 ， 则 数据 将 
被 发 送 。 

149-150 如果 接收 方 的 接收 窗口 已 至 少 打 开 了 一 半 ， 则 发 送 数据 。 这 个 限制 条 件 是 为 了 处 
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理 对 端 一 直 发 送 小 窗口 通告 ， 其 至 小 于 报 文 段 长 度 的 情况 。 变 量 max_sndwnd 由 上 cp_input 
维护 ， 等 于 连接 对 端 发 送 的 所 有 窗口 通告 中 的 最 大 值 。 实 际 上 ，TCP 试 图 猜测 对 端 接收 缓存 
的 大 小 ， 并 假定 对 端 永远 不 会 减 小 其 接收 缓存 。 
151-152 如 果 重 传 定时 器 超时 ， 则 必须 发 送 一 个 报 文 段 。snd_max 是 已 发 送 过 的 最 高 序号 ， 
从 图 25-26 可 知 ， 重 传 定时 器 超时 后 ，snqd_nxt 将 被 设 为 snd_una， 即 snd_nxt 会 指向 窗口 
的 左 侧 ， 从 而 小 于 snd_max。 

图 26-9 给 出 了 tcp_output 的 下 一 部 分 ， 确 定 TCP 是 否 必须 向 对 端 发 送 新 的 窗口 通告 ， 
称 之 为 “窗口 更 新 ”。 


154 7* tcp output.c 
155 * Compare available window to amount of window ] 
156 * known to peer (as advertised window less 
157 * next expected input). If the difference is at least two 
158 * max size segments, or at least 50$ of the maximum possible 
159 * window, then want to send a window update to peer. 
160 */ 
161 if (win > 0) ( 
162 o f* 
163 * "adv" is the amount we can increase the window, 
164 * taking into account that we are limited by 
165 * TCP MAXWIN «« tp-»rcv scale. 
166 */ 
167 long adv - min(win, (long) TCP MAXWIN «« tp-»rcv scale) - 
168 (tp-»rcv adv - tp-»rcv nxt); 
169 if (adv »- (long) (2 * tp-»t maxseg)) 
170 goto send; 
171 if (2 * adv >= (long) so-»so rcv.sb hiwat) 
172 goto send; 
173 ) 
tcp output.c 


图 26-9 tcp outputERÉE: 判定 是 否 需要 发 送 窗 口 更 新 报 文 
154-168 表达 式 


min (win, (long) TCP, MAXWIN «« tp-»rcv. scale) 
等 于 插口 接收 缓存 可 用 空间 大 小 (win) 和 连接 上 所 人 允许 的 最 大 窗口 大 小 之 间 的 最 小 值 ， 即 TCP 
当前 能 够 向 对 端 发 送 的 接收 窗口 的 最 大 值 。 表 达 式 

(tp-»rcv adv - tp-»rcv. nxt) 
等 于 TCP 最 后 一 次 通告 的 接收 窗口 中 剩余 空间 的 大 小 ， 以 字 节 为 单位 。 两 者 相 减 得 到 adv， 窗 
口 已 打开 的 字 节 数 。tcp_input 顺 序 接收 数据 时 ， 递 增 rcv_nxt。tcp_output 在 通告 窗 
口 边 界 向 右 移 动 时 ， 递 增 zcv_adv( 代 码 见 图 26-32) 。 

回想 图 24-18， 假 定 收 到 了 字 节 4、5 和 6， 并 提交 给 应 用 进程 。 图 26-10 给 出 了 此 时 
tcp_output 中 接收 缓存 的 状态 。 
adv 等 于 3， 因 为 接收 空间 中 还 有 3 个 字 节 ( 字 节 10、11 和 12) 等 待 对 端 填充 。 
169-170 如果 剩 余 的 接收 空间 能 够 容纳 两 个 或 两 个 以 上 的 报 文 段 ， 则 发 送 窗口 更 新 报 文 。 
在 收 到 最 大 长 度 报 文 段 后 ，TCP 将 确认 收 到 的 所 有 其 他 报 文 段 : “确认 所 有 其 他 报 文 段 (ACK- 
every-other-segment)” 的 属性 (马上 就 会 看 到 具体 的 实例 )。 
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| win = 6: 接收 缓存 大 小 








a— - 
4 5 6 7 8 9 10 11 12 13 14 
rcv nxt =7 rcv. adv = 10 


下 一 个 接收 序号 。 通告 的 最 高 序号 加 1 
图 26-10 收 到 字 节 4、5 和 6 后 ， 图 24-18 中 连接 的 状态 变化 
171-172 如 果 可 用 空间 大 于 插口 接收 缓存 的 一 半 ， 则 发 送 窗口 更 新 报 文 。 
图 26-11 给 出 了 tcp_output 下 一 部 分 的 代码 ， 判 定 输出 标志 是 否 置 位 ， 要 求 TCP 发 送 相 
应 报 文 段 。 





174 7* tcp. output.c 
175 * Send if we owe peer an ACK. 

176 */ 

177 if (tp-»t flags & TF ACKNOW) 

178 goto send; 

179 if (flags & (TH_SYN | TH RST)) 

180 goto send; 

181 if (SEQ GT(tp-»snd, up, tp-»snd una)) 

182 goto send; 

183 /* 

184 * If our state indicates that FIN should be sent 

185 * and we have not yet done so, or we're retransmitting the FIN, 

186 * then we need to send. 

187 */ 

188 if (flags & TH FIN && 

189 ((tp-»t flags & TF SENTFIN) == 0 || tp-»snd nxt == tp-»snd una)) 
190 goto send; . 


tcp output.c 





图 26-11 tcp_output 函 数 : 是 否 需 要 发 送 特定 报 文 段 


174-178 ”如 果 TF_ACKNOW 置 位 ， 要 求 立即 发 送 ACK， 则 发 送 相 应 报 文 段 。 有 多 种 情况 可 
导致 TF_ACKNOW 置 位 200 ms 延迟 ACK 定 时 器 超时 ， 报 文 段 未 按 顺 序 到 达 ( 用 于 快速 重 传 算 
法 )， 三 次 担 手 时 收 到 了 SYN， 收 到 了 窗口 探测 报 文 ， 收 到 了 FIN。 
179-180 如 果 输 出 标志 flags 要 求 发 送 SYN 或 RST， 则 发 送 相应 报 文 段 。 
181-182 如 果 紧 急 指 针 ，snd_up， 超 出 了 发 送 缓存 的 起 始 边 界 ， 则 发 送 相 应 报 文 段 。 紧 
急 指 针 由 PRU_SENDOOB 请 求 处 理 代码 (图 30-9) 负 责 维护 。 
183-190 ”如 果 输 出 标志 f1ags 要 求 发 送 FIN， 并 且 满 足下 列 条 件 : FIN 未 发 送 过 或 者 FIN 等 
待 重 传 ， 则 发 送 相应 报 文 段 。FIN 发 送 后 ， 函 数 将 置 位 TF_SENTFIN 标 志 。 

到 目前 为 止 ，tcp_output 还 没有 真正 发 送 报 文 段 ， 图 26-12 给 出 了 函数 返回 前 的 最 后 一 
段 代码 。 
191-217 如 果 发 送 缓存 中 存在 需要 发 送 的 数据 (so_snd.sb_cc 非 零 )， 并 且 重 传 定时 器 和 
持续 定时 器 都 未 设 定 ， 则 启动 持续 定时 器 。 这 是 为 了 处 理 对 端 通告 的 接收 窗口 过 小 ， 无 法 接 
收 最 大 长 度 报 文 段 ， 而 且 也 没有 特殊 原因 需要 发 送 立 即 发 送 报 文 段 的 情况 。 
218-221 由 于 不 需要 发 送 报 文 段 ，tcp_output 返 回 。 
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191 7 tcp output.c 
192 * TCP window updates are not reliable, rather a polling protocol 
193 * using 'persist' packets is used to ensure receipt of window 
194 * updates. The three 'states' for the output side are: 
195 * idie not doing retransmits or persists 
196 * persisting to move a small or zero window 
197 *  (re)transmitting and thereby not persisting 
198 * 
199 * tp->t_timer [TCPT PERSIST] 
200 * is set when we are in persist state. 
201 * tp-»t force 
202 * is set when we are called to send a persist packet. 
203 * tp-»t timer[TCPT REXMT] 
204 * is set when we are retransmitting 
205 * The output side is idle when both timers are zero. 
206 * 
207 * If send window is too small, there is data to transmit, and no 
208 * retransmit or persist is pending, then go to persist state. 
209 * If nothing happens soon, send when timer expires: 
210 * if window is nonzero, transmit what we can, 
211 * otherwise force out a byte. 
212 */ 
213 if (so-»so snd.sb cc && tp-»t timer[TCPT REXMT] == 0 && 
214 tp-»t timer[TCPT. PERSIST] == 0) ( 
215 tp-»t rxtshift - 0; 
216 tcp setpersist(tp): 
217 ) 
218 /* 
219 * No reason to send a segment, just return. 
220 */ 
221 return (0); 
tcp output.c 
图 26-12 tcp_output 函 数 : 进入 持续 状态 
举例 


应 用 进程 向 某 个 空闲 的 连接 写 入 100 字 节 ， 接 着 又 写 人 50 字 节 。 假 定 报 文 段 大 小 为 5312 字 
节 。 在 第 一 次 写 人 操作 时 ， 由 于 连接 空 阅 ， 且 TCP 正 在 清空 发 送 缓存 ， 图 26-8 中 的 代码 
(144~146 行 ) 被 执行 ， 发 送 一 个 报 文 段 ， 携 带 100 字 市 的 数据 。 

在 第 二 次 写 入 50 字 节 时 ， 图 26-8 中 的 代码 被 执行 ， 但 未 发 送 报 文 段 : 待 发 送 数据 不 能 构 
成 一 个 最 大 长 度 报 文 段 ， 连 接 未 空闲 (假定 TCP 正 在 等 待 第 一 个 报 文 段 的 ACK)， 默 认 时 采用 
Nagle 算 法 ，t_force 未 置 位 ， 并 且 假 定 正常 情况 下 接收 窗口 大 小 为 4096，50 不 满足 大 于 等 
于 2048 的 条 件 。 这 50 字 节 的 数据 将 暂 留 在 发 送 缓存 中 ， 也 许 会 一 直 等 到 第 一 个 报 文 段 的 ACK 
到 达 。 由 于 对 端 可 能 延迟 发 送 ACK， 最 后 50 字 节 数 据 发 送 前 的 延迟 有 可 能 会 更 长 。 

这 个 例子 说 明 采 用 Nagle 算 法 时 ， 如 果 待 发 送 数据 无 法 构成 最 大 长 度 报 文 段 ， 如 何 计算 它 
的 延 时。 参见 习题 26.12。 


举例 
本 例 说 明 TCP 的 “确认 所 有 其 他 报 文 段 ” 属 性 。 假 定 连 接 的 报 文 段 大 小 为 1024 字 节 ， 接 
收 缓存 大 小 为 4096 字 节 。 本 地 不 发 送 数据 ， 只 接收 数据 。 
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发 向 对 端的 对 SYN 的 ACK 报 文中 ， 通 告 接收 窗口 大 小 为 4096， 图 26-13 给 出 了 两 个 变量 
rcv_nxt 和 rcv_adv 的 初始 值 。 接 收 缓存 为 空 。 
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图 26-13 接收 方 通告 接收 窗口 大 小 为 4096 


对 端 发 送 1~1024 字 节 的 报 文 段 ，tcp_input 处 理 报 文 自 后， 设置 连接 的 延迟 ACK 标 志 ， 
把 1024 字 节 的 数据 放 入 插口 的 接收 缓存 中 (图 28-13)。 更 新 rcv_nxt， 如 图 26-14 所 示 。 
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图 26-14 图 26-13 所 示 的 连接 在 收 到 1~1024 字 节 后 的 状态 变迁 


应 用 进程 从 插口 的 接收 缓存 中 读 取 1024 字 节 的 数据 。 从 图 30-6 中 可 看 到 ， 生 成 的 
PRU_RCVD 请 求 在 处 理 过 程 中 会 调用 tcp_output， 因 为 应 用 进程 从 接收 缓存 读 取 数 据 后 ， 
可 能 需要 发 送 窗 口 更 新 报 文 。 当 tcp_output 被 调用 时 ，rcv_nxt 和 rcv_adv 的 值 与 图 26- 
14 相 同 ， 唯 一 的 区 别 是 接收 缓存 的 可 用 空间 增加 至 4096， 因 为 应 用 进程 从 中 读 取 了 第 一 个 
1024 字 节 的 数据 。 把 上 述 具 体 数值 代入 图 26-9 中 的 算式 ， 得 到 : 


adv = min(4096, 65535) - (4097 - 1025) 
= 1024 


TCP_MAXNWIN 等 于 65535， 我 们 假定 接收 窗口 大 小 偏 移 量 为 0。 由 于 窗口 的 增加 值 小 于 两 
个 最 大 报 文 段 长 度 (2048)， 无 需 发 送 窗口 更 新 报 文 。 但 由 于 延迟 ACK 标 志 置 位 ， 如 果 200ms 定 
时 器 超时 ， 将 发 送 ACK。 

当 TCP 收 到 下 一 个 1025~2048 字 第 的 报 文 段 时 ，tcp_input 处 理 后 ， 设 定 连 接 的 延迟 
ACK 标 志 ( 这 个 标志 已 置 位 )， 把 1024 字 节 的 数据 放 入 插口 的 接收 缓存 中 ， 更 新 rcv_nxt， 如 
图 26-15 所 示 。 
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rcv nxt = 2049 rcv adv - 4097 
下 一 个 接收 序号 通告 的 最 高 序号 加 I 


图 26-15 图 26-14 所 示 的 连接 收 到 1025~2048 字 节 后 的 状态 变迁 


£26* TCP 5 出 691 


应 用 进程 读 取 1024~2048 字 节 的 数据 ， 调 用 kcp_output。rcv_nxt 和 rcv_adv 的 值 与 
图 26-15 相 同 ， 尽 管 应 用 进程 读 取 1024 字 节 的 数据 后 ， 接 收 缓存 的 可 用 空间 增加 至 4096。 把 上 
述 具 体 数值 代入 图 26-9 的 算式 中 ， 得 到 : 


adv = min(4096, 65535) - (4097 - 2049) 
= 2048 


它 等 于 两 个 报 文 段 的 长 度 ， 因 此 发 送 窗 口 更 新 报 文 ， 确 认 序 号 字段 为 2049， 通 告 窗口 字 
段 为 4096， 表 示 接 收 方 希 望 接收 序号 2049~6145 的 数据 。 我 们 在 后 面 将 看 到 ， 尔 数 发 送 完 窗 口 
更 新 报 文 后 ， 将 更 新 rcv_adv 的 值 为 6145 。 

本 例 说 明了 如 果 数 据 接收 时 间 少 于 200ms 延 迟 定时 器 时 限 ， 在 有 两 个 或 两 个 以 上 报 文 段 到 
达 ， 而 且 应 用 进程 连续 读 取 数 据 引起 了 接收 窗口 的 不 断 变 化 时 ， 将 发 送 ACK， 确 认 所 有 接收 
到 的 报 文 段 。 如 果 有 数据 到 达 ， 但 应 用 进程 没有 从 插口 的 接收 缓存 中 读 取 数 据 ， 则 “确认 所 
有 其 他 报 文 段 ” 的 属性 不 会 出 现 。 相 反 ， 发 送 方 只 能 看 到 多 个 延迟 ACEK， 每 个 ACK 的 窗口 字 
段 均 较 前 一 个 要 小 ， 直 到 接收 缓存 被 填 满 ， 接 收 窗口 缩小 为 0。 


26.4 TCP 选 项 


.TCP 首部 可 以 有 任 选项 。 由 于 tcp_output 的 下 一 部 分 代码 将 试图 确定 哪些 选项 需要 发 
送 ， 并 据 此 组 织 将 发 送 的 报 文 股 ， 下 面 我 们 将 暂时 离开 函数 代码 ， 转 而 讨论 这 些 选 项 。 
图 26-16 列 出 了 Neu3 支 持 的 选项 格式 。 





选项 表 结束 : kind=0 
EX 
无 操作 : kind-1 
1 字 节 
“| 最 大 报 文 段 长 
1 字 节 gu 2 字 节 
窗口 缩放 因子 : kind=3 | len-3 | 位 移 值 







图 26-16 Net3 支 持 的 TCP 选 项 


所 有 选项 以 1 字 节 的 kind 字 段 开 头 ， 确 定 选 项 类 型 。 头 两 个 选项 (kind=0 或 kind=1) 只 有 1 个 
字 节 。 其 余 3 个 选项 都 是 多 字 节 的 ， 带 有 /en 字段 ， 位 于 kind 字 段 之 后 ， 存 储 选 项 的 长 度 。 长 度 





692 TCP/IP:É&£ X2: 实现 


中 包括 kind 字 段 和 len 字 有 段 。 

多 字 节 整数 一 -MSS 和 两 个 时 间 惟 值 一 一 遵照 网 络 字 节 序 存储 。 

最 后 两 个 选项 ， 窗 口 大 小 和 时 间 戳 ， 是 新 增 的 ， 因 此 许多 系统 都 不 支持 。 为 了 与 以 前 的 
系统 兼容 ， 应 遵循 下 列 原则 : 

1) TCP 主 动 打开 时 (发 送 不 带 ACK 的 SYN)， 可 以 在 初始 SYN 中 同时 发 送 这 两 个 选项 ， 或 
发 送 其 中 的 任何 一 个 。 如 果 全 局 变量 tcp_dqo_rfc1323 非 零 (默认 值 等 于 DJ)， 则 Net/3 同 时 支 
持 这 两 个 选项 。 此 项 功能 由 tcP_newtcpcbp 国 数 实现 。 

2) 只 有 对 端 返回 的 SYN 中 包含 同样 的 选项 时 ， 才 可 以 使 用 这 些 选项 。 图 28-20 和 图 29-2 中 
的 代码 实现 此 类 处 理 。 

3) TCP 被 动 打开 时 ， 如 果 收 到 的 SYN 中 包含 了 这 两 个 选项 ， 而 且 也 希望 使 用 这 些 选 项 ， 
则 发 向 对 端的 响应 ( 带 有 ACK 的 SYN) 中 必须 包含 它们 ， 如 图 26-23 所 示 。 

由 于 系统 必须 忽略 它 不 了 解 的 选项 ， 因 此 新 增 的 选项 只 有 当 连 接 双 方 都 了 解 这 一 选项 ， 
且 同 时 希望 支持 它 时 才 会 被 使 用 。 

27.5 节 将 讨论 如 何 处 理 MSS 选 项 。 下 面 两 节 将 总 结 Net/3 处 理 两 个 新 选项 的 做 法 窗口 大 
7] EBERT [8] C 

还 有 其 他 可 能 的 选项 。Kinds 等 于 4、5、6 和 7， 称 为 选择 性 ACK 和 回 显 选 项 ， 在 

RFC 1072[Jacobson and Braden 1998] 中 定义 。 图 26-16 中 并 未 给 出 这 些 选项 ， 因 为 回 

显 选项 已 被 时 间 改 选项 所 代替 ， 选 择 性 ACK 选 项 目前 还 未 形成 正式 标准 ， 未 在 RFC 

1323 中 出 现 。 此 外 ， 处 理 TCP 交 易 的 T/TCP 建 议 (RFC 1644[Braden 1994] 和 卷 1 的 24.7 

节 ) 规 定 了 其 他 3 个 选项 ，kinds 分 别 为 11 、12 和 13。 


2655 窗口 大 小 选项 


窗口 大 小 选项 ， 在 RFC 1323 中 定义 ， 避 免 了 TCP 首 部 窗口 大 小 字段 只 有 16 bit 的 限制 (图 24- 
10)。 如 果 网 络 带 宽 较 高 或 延 时 较 长 (如 ，RTT 较 长 )， 则 需要 较 大 的 窗口 ， 称 为 长 肥 管 道 Qong 
fat pipe)。 卷 1 的 第 24.3 节 举例 说 明了 现代 网 络 需 要 较 大 的 窗口 ， 以 获取 最 大 的 TCP 吞 吐 量 。 

图 26-16 中 的 偏 移 量 最 小 值 为 0 (无 缩放 )， 最 大 值 为 14， 即 窗口 最 大 可 设 定 为 1 073 725 
440 (65535 x 2") 字 节 。Net/3 内 部 实现 时 ， 利 用 32 bit， 而 非 16 bit 整 数 表示 窗口 大 小 。 

窗口 大 小 选项 只 能 出 现在 SYN 中 ， 因 此 ， 连 接 建立 后 ， 每 个 传输 方向 上 的 缩放 因子 是 固 
定 不 变 的 。 

TCP 控 制 块 中 的 两 个 变量 snd_scale 和 rcv_scale， 分 别 规定 了 发 送 窗口 和 接收 窗口 
的 偏 移 量 。 它 们 的 默认 值 均 为 0， 无 缩放 。 每 次 收 到 对 端 发 送 的 窗口 通告 时 ，16 bit 的 窗口 大 
小 值 被 左 移 snd_scale 比 特 ， 得 到 真正 的 32 bit 的 对 端 接 收 窗口 大 小 (图 28-6)。 每 次 准备 向 对 
端 发 送 窗口 通告 时 ， 内 部 的 32 bit 窗 口 大 小 值 被 右 移 rcv_scale 比 特 ， 得 到 可 填 入 TCP 首 部 
窗口 字段 的 16 bit 值 。 

TCP 发 送 SYN 时 ， 无 论 是 主动 打开 或 被 动 打 开 ， 都 是 根据 本 地 插口 接收 缓存 大 小 选取 
rcv_scale 值 ， 填 充 窗 口 大 小 选项 的 偏 移 量 字段 。 


26.6 MARAA | 
RFC 1323 中 还 定义 了 时 间 玲 选项 。 发 送 方 在 每 个 报 文 段 中 放 入 时 间 蕉 ， 接 收 方 在 ACK 中 
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HHR. o P 8E CRIEACK, RX 25 T8 DSi IRL EST IR] RXET ERR PEUJRTT EE EE. 
图 26-17 总 结 了 时 间 惟 选项 所 用 到 的 变量 。 


-一 1275: 50] in] lode - 


接收 报 文 段 rores Era ER PiaR i 


ts_val ts ecr n 


tcp now-ts ecr = 有 IT 
last, ack sent 


ts recent 
ts recent age «+ 
t E 


传输 报 文 段 | £ 时 间 戳 吕 | 
-一 一 | ooaoxotod man | X | 4 


图 26-17 时 间 蕉 选项 中 用 到 的 变量 小 结 


全 局 变量 cp_noew 是 一 个 时 间 惟 时 钟 。 内 核 初 肩 时 它 初始 化 为 0， 之 后 每 500 ms 增加 1( 图 
25-8)。 为 实现 时 间 蕉 选项 ，TCP 控 制 块 中 定义 了 下 面 3 个 变量 : 

“ts_recent 等 二 对 端 发 送 的 最 新 的 有 效 时 间 堆 (后 面 很 快 会 介绍 什么 是 “有 效 的 ”时 间 

&X). 

。ts_recent_age 是 最 近 一 次 tcp_recent 被 更 新 时 的 tcp_now 值 。 

“last_ack_sent 是 最 近 一 次 发 送 报 文 段 时 确认 字段 (ti_ack) 的 值 (图 26-32)。 除 非 

ACK 被 延迟 ， 正 常情 况 下 ， 它 等 于 rcv_nxt， 下 一 个 等 待 接收 的 序号 。 

tcp_input 国 数 中 的 两 个 局 部 变量 es_va1 和 ts_ecr， 保 存 时 间 惟 选项 的 两 个 值 : 

“ts_val 是 对 端 发 送 的 数据 中 携带 的 时 间 戳 。 

“ts_ecr 是 由 收 到 的 报 文 段 确认 的 本 地 发 送 报 文 段 中 携带 的 时 间 惟 。 

发 送 报 文 段 中 ， 时 间 发 选项 的 前 4 个 字 节 为 0x0101080a， 这 是 RFC 1323 附 录 A 中 建议 的 
填充 值 。 第 一 和 第 二 字 节 都 等 于 1， 为 NOP; 第 三 字 节 为 Kind 字段 ， 等 于 8; 第 四 字 节 为 len 字 
段 ， 等 于 10。 在 选项 之 前 添加 两 个 NOP 后 ， 紧 接着 的 两 个 32 bit 时 间 截 和 后 续 数据 都 可 按照 32 
bit 边 界 对 齐 。 此 外 ， 图 26-17 中 还 给 出 了 接收 到 的 时 间 惟 选项 ， 同 样 采用 了 推荐 的 12 字 市 格式 
(Net/3 通 常生 成 的 格式 )。 不 过 ， 处 理 接收 选项 的 应 用 进程 代码 (图 28-10)， 并 不 要 求 必须 使 用 
此 格式 .图 26-16 中 定义 的 10 字 节 格 式 中 ， 没 有 两 个 前 导 的 NOP， 对 端 接收 处 理 代码 一 样 工作 
正常 (参见 习题 28.4)。 

从 发 送 报 文 段 至 收 到 其 ACK 间 的 RTT 答 于 tcp_now 减 ts_ecr， 单 位 为 500ms 滴 答 ， 因 为 
这 是 NeVy3 时 间 蕉 的 单位 。 

时 间 蕉 选项 还 可 以 支持 TCP 执 行 PAWS: 防止 序号 回 绕 (protection against wrapped sequence 
number)。28.7 节 将 详细 讨论 这 一 算法 。PAWS 中 会 用 到 ts_recent_age 变 量 。 

tcp_output 向 输出 报 文 段 中 填充 时 间 惟 选项 时 ， 复 制 tcp._now 到 时 间 礁 字段， 复制 
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ts_recent 到 时 间 戳 回 显 字段 (图 26-24)。 如 果 连 接 采 用 了 时 间 戳 选项 ， 则 必须 为 所 有 输出 报 
文 段 执行 这 一 操作 ， 除 非 RST 标 志 置 位 。 


26.6.1 哪个 时 间 惟 需要 回 显 ，RFC 1323 算 法 


TCP 通 过 时 间 蕉 的 有 效 性 测试 决定 是 否 更 新 ks_recent， 因 为 这 个 变量 会 被 填充 到 时 间 
截 回 显 字段 中 ， 也 就 决定 了 对 端 发 送 的 哪个 时 间 惟 需要 回 显 。RFC 1323 规 定 了 下 面 的 测试 条 
件 : 

ti seq «- last ack sent « ti seq + ti len 


图 26-18 中 的 C 代 码 实现 它 。 


if (ts present && SEQ LEQ(ti-»ti, seq, tp-»last ack,.sent) && 
SEQ LT(tp-»last ack sent, ti-»ti, seq + ti-»ti len)) ( 
tp-»ts recent age = tCp now; 
tp-»ts recent = ts val; 








图 26-18 判定 接收 时 间 戳 是否 有 效 的 典型 代码 


如 果 收 到 的 报 文 段 中 携带 时 间 惟 选项 ， 则 变量 ts_present 为 真 。 我 们 在 
tcp_input 中 两 次 遇 到 这 段 代 码 : 图 28-11 首 部 预测 代码 中 的 测试 ; 和 图 28-35 正 常 输入 处 


理 中 的 测试 。 
为 了 理解 测试 条 件 的 具体 含义 ， 图 26-19 给 出 了 5 种 不 同 的 实例 ， 分 别 对 应 于 连接 上 收 到 
的 5 种 不 同 的 报 文 段 。 每 个 例子 中 ，ti_1len 都 等 于 3。 


last_ack_sent 


图 26-19 举例 : 收 到 5 个 不 同 报 文 段 时 的 接收 窗口 


接收 窗口 左边 界 的 序号 从 4 开始 。 实 例 1 中 ， 报 文 段 中 携带 的 全 部 是 重复 数据 。 图 28-11 中 
的 SEO_LEQ 测 试 为 真 ， 但 SEQ_LT 测 试 失 败 。 对 于 实例 2、3 和 4， 由 于 收 到 其 中 任何 一 个 报 文 
段 ， 接 收 窗口 左边 界 都 会 增加 ，SEQ_LEQ 和 SEQ_LT 测 试 都 为 真 ， 尽 管 实例 2 中 包含 2 个 重复 
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数据 ， 实 例 3 中 也 包含 1 个 重复 数据 。 实 例 5， 由 于 它 无 法 增加 接收 窗口 左边 界 ， 所 以 
SEO_LEO 测 试 失 败 。 这 是 一 个 未 来 报 文 段 ， 而 非 等 待 的 下 一 个 报 文 段 ， 意 味 着 它 前 面 的 报 文 
段 丢 失 或 报 文 段 序列 错误 。 

不 幸 的 是 ， 这 个 用 于 判定 是 否 更 新 ts_recent 的 测试 条 件 存 在 问题 [Braden 1993]， 考 虑 
下 面 的 例子 。 

1) 假定 图 26-19 中 的 连接 开始 时 收 到 了 一 个 报 文 段 ， 携 带 字 节 1、2 和 3。 因 为 
last_ack_sent 等 于 1， 报 文 段 的 时 间 惟 被 保存 到 ts_recent 中 。 发 送 ACK， 确 认 序 号 为 4， 
last_ack_sent 设 为 4(rcv_nxt 的 值 )， 得 到 如 图 26-19 所 示 的 接收 窗口 。 

2) ACK 天 失 。 

3) 对 端 超时 后 重 传 前 一 个 报 文 段 ， 携 带 字 节 1、2 和 3， 即 为 图 26-19 中 实例 1 的 报 文 段 。 由 
于 图 26-18 中 的 SEQ_LT 测 试 失败 、ts_recent 不 会 更 新 为 重 传 报 文 段 中 的 值 。 

4) TCP 发 送 一 个 重复 的 ACK， 确 认 序号 为 4， 但 时 间 蕉 回 显 字段 填 人 的 ts_recent， 即 
从 步骤 1 的 原始 报 文 段 中 获取 的 时 间 戳 值 。 接 收 方 利用 这 个 值 计 算 RTT 时 ， 将 (不 正确 地 ) 计 人 
原始 传输 、 技 失 的 ACK、 定 时 器 超时 、 重 传 和 重复 ACK， 得 到 它们 的 总 时 延 。 

为 了 使 对 端 能 够 正确 地 计算 RTT， 重 发 ACK 中 应 该 携带 重 传 报 文中 的 时 间 戳 值 。 

图 26-18 中 的 测试 在 收 到 的 报 文 长 度 为 0 时 ， 由 于 无 法 移动 接收 窗口 左边 界 ， 同 样 不 能 更 
新 rs_recent。 此 外 ， 这 个 错误 的 测试 条 件 还 会 造成 生存 时 间 过 长 的 (大 于 24 天 ， 参 见 28.7 节 
中 讨论 的 PAWS 限 制 )、 单 方向 的 (数据 流 只 在 一 个 方向 上 存在 ， 从 而 数据 发 送 方 总 是 输出 相同 
的 ACK) 连 接 。 


26.6.0 哪个 时 间 惟 需要 回 显 ， 正 确 的 算法 


Net/3 源 代码 中 使 用 了 图 26-18 所 示 的 算法 。[Braden 1993] 定 义 了 正确 的 算法 ， 如 图 26-20 
所 示 。 


if (ts present && TSTMP GEQ(ts val, tp-»ts recent) && 
SEQ LEQ(ti-»ti seq, tp-»last, ack sent)) { 


图 26-20 判定 接收 时 间 惟 是 否 有 效 的 正确 代码 


它 不 关心 接收 窗口 左 侧 是 否 移动 ， 只 确认 新 的 时 间 改 (ts_val1) 大 于 等 于 前 一 个 时 间 惟 
(ts_recent)， 并 且 接 收 到 的 报 文 段 的 起 始 序号 不 大 于 窗口 的 左边 界 。 图 26-19 中 实例 5 的 报 
文 仍旧 无 法 通过 新 的 测试 ， 因 为 这 是 一 个 乱 序 报 文 。 

宏 TSTMP_GEQ 与 图 24-21 中 的 SEQ_GEQ 相 同 。 它 用 于 处 理 时 间 瞧 ， 因 为 时 间 截 是 32 bith 
无 符号 整数 ， 与 序号 一 样 存在 回 绕 的 问题 。 


26.6.3 ”时 间 稚 与 延迟 ACK 


正确 理解 延迟 ACK 是 如 何 影响 时 间 蕉 和 RTT 计 算是 很 重要 的 。 回 想 图 26-17，TCP 把 
ts_recent 填 人 到 发 送 报 文 段 的 时 间 惟 回 显 字段 中 ， 对 端 据 此 计算 新 的 RTT 样 本 值 。 如 采 
ACK 被 延迟 ， 对 端 计 算 时 应 把 延迟 时 间 也 考虑 在 内 ， 否 则 会 造成 频繁 重 传 。 下 面 的 例子 中 ， 
我 们 使 用 图 26-20 中 的 代码 ， 不 过 图 26-18 的 代码 也 能 正确 处 理 延 迟 ACK。 

考虑 图 26-21 所 示 的 接收 窗口 收 到 携带 字 节 4 和 5 的 报 文 段 时 的 变化 。 
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rcv, wnd-6: 接收 窗口 


二 一 一 一 一 
E 5 6 7 8 9 10 11 


rcv, nxt 
last, ack sent 


ti seq 
图 26-21 当 字 节 4 和 5 到 达 时 的 接收 序号 空间 
由 于 ti_seqg 小 于 等 于 last_ack_sent，ts_recent 被 更 新 。rcv_nxt 增 加 2。 


假定 对 这 两 个 字 节 的 ACK 被 延迟 ， 而 且 在 延迟 ACK 发 送 之 前 ， 收 到 了 下 一 个 按 序 到 达 的 
报 文 段 ， 如 图 26-22 所 示 。 








rcv. wnd-6: 接收 窗口 


4 5 6 7 8 9 10 11 


! 


last ack sent rcv nxt 


ti seq 
图 26-22 当 字 节 6 和 7 到 达 时 的 接收 序号 空间 


这 一 次 ti_seq 大 于 last_ack_sent， 因 此 ， 不 会 更 新 ts_recent。 这 样 做 是 有 目的 
的 。 假 定 TCP 现 在 发 送 确认 序号 4~7 的 ACEK， 对 端 据 此 了 解 存在 延迟 ACK， 因 为 时 间 惟 回 显 字 
段 填 入 的 是 携带 序号 4 和 5 的 报 文 段 的 时 间 戳 值 ( 图 26-24)。 图 26-22 还 说 明了 除非 使 用 了 延迟 
ACK， 否 则 ，rcv_nxt 应 该 等 于 last_ack_sent。 


26.7 发 送 一 个 报 文 段 


tcp_output 接 下 来 的 代码 负责 发 送 报 文 段 一 一 填充 TCP 报 文 首部 的 所 有 字段 ， 并 传递 
给 IP 层 准备 发 送 。 | 

图 26-23 给 出 了 这 段 代码 的 第 一 部 分 ， 发 送 SYN 报 文 段 ， 携 带 MSS 选 项 和 窗口 大 小 选项 。 
223-234 TCP 选项 字段 构建 时 用 到 数组 opt， 整 数 opt1en 记 录 累 积 的 字 节 数 (因为 一 次 可 
发 送 多 个 选项 )。 如 果 SYN 标 志 置 位 ，snd_nxt 复 位 为 初始 发 送 序 号 (iss)。 如 果 主 动 打开 ， 
则 创建 TCP 控 制 块 时 在 PRU_CONNECT 请 求 处 理 中 对 iss 赋 值 ， 如 果 被 动 打开 ， 则 tcp_input 
创建 TCP 控 制 块 的 同时 对 iss 赋 值 。 两 种 情况 下 ，iss 都 等 于 全 局 变量 tcp_.iss。 
235 ”查看 标志 TF_NOOPT。 但 事实 上 ， 这 个 标志 永远 都 不 会 置 位 ， 因 为 没有 代码 实现 置 位 操 





作 。 因 此 ，SYN 报 文 段 中 必然 存在 MSS 选 项 。 
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Net/1 版 的 tcp_newtcpcb 中 ， 初 始 化 t_flags 为 0 的 代码 旁 有 一 条 注释 “发 送 
选项 ! "”。TF_NOOPT 标 志 很 可 能 是 从 早期 的 NeUV1 版 本 中 遗留 下 来 的 问题 。 早 期 版 本 
发 送 MSS 选 项 时 与 其 他 主机 系统 不 兼容 ， 只 好 默认 设置 不 发 送 这 一 选项 。 


223 7 tcp output.c 
224 * Before ESTABLISHED, force sending of initial options 

225 * unless TCP set not to do any options. 

226 * NOTE: we assume that the IP/TCP header plus TCP options 

227 * always fit in a single mbuf, leaving room for a maximum 

228 * link header, i.e. 

229 * max,linkhdr + sizeof (struct tcpiphdr) + optlen «- MHLEN 

230 */ 

231 optlen = 0; 

232 hdrlen = sizeof(struct tcpiphdr); 

233 if (flags & TH SYN) ( 

234 tp-»snd nxt = tp-»iss; 

235 if ((tp-»t flags & TF NOOPT) == 0) ( 

236 u short mss; 

237 opt[0] = TCPOPT MAXSEG; 

238 opt [1} = 4; 

239 mss = htons((u short) tcp mss(tp, 0)); 

240 bcopy((caddr t) & mss, (caddr t) (opt + 2), sizeof (mss)); 

241 optlen - 4; 

242 if ((tp-»t . flags & TF. REQ SCALE) && 

243 ((flags & TH ACK) == 0 II 

244 (tp-»t. flags & TF RCVD SCALE]))) ( 

245 *((u long *) (opt + optlen)) = htonl(TCPOPT NOP «« 24 | 
246 TCPOPT WINDOW «« 16 1 
247 TCPOLEN WINDOW «« 8 | 
248 tp-»request r scale); 
249 optlen += 4; 

250 } 

251 } 

252 } 





tcp_output.c 


图 26-23 tcp_output 国 数 : 发 送 第 一 个 SYN 时 加 入 选项 


1. 构造 MSS 选 项 


236-241 opt[0] 等 于 2(TCPOPT_MAXSEG)，opt{1] 等 于 4， 即 MSS 选 项 长 度 ， 以 字 节 为 单位 。 
函数 tcp_mss 计 算 准 备 向 对 端 发送 的 MSS 值 ，27.5 节 将 讨论 这 个 函数 。bcopy 把 16 bit 的 MSS 
存储 到 opt [2] 和 opt[{31 中 (习题 26.5)。 注 意 ，Net/3 总 是 在 建立 连接 的 SYN 中 发 送 MSS。 


2. 是 否 发 送 窗 口 大 小 选项 


242-244 ”即使 TCP 请 求 窗口 大 小 功能 ， 也 只 有 在 主动 打开 (TH_ACK 未 置 位 ) 时 ， 或 者 被 动 打 
开 但 对 端 SYN 中 已 包含 了 窗口 大 小 选项 时 ， 才 会 发 送 这 一 选项 。 回 想 图 25-21 中 TCP 控 制 块 创 
建 时 ， 如 果 全 局 变量 tcp_do_rfc1l323 非 零 ( 默 认 值 )， 那 么 t_f1ags 就 等 于 


TF REQ SCALEI|TF REQ TSTMP. 
3. 构造 窗口 大 小 选项 


245-249 由 于 窗口 大 小 选项 占用 3 个 字 节 (图 26-16)， 在 它 前 面 加 入 ! 字 节 的 NOP， 强 迫 其 长 
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度 为 4 字 节 ， 从 而 后 续 数据 都 可 以 按照 4 字 节 边 界 对 齐 。 如 果 主 动 打开 ， 则 在 PRU_CONNECT 
请 求 处 理 代 码 中 计算 request_r_scale。 如 果 被 动 打开 ， 则 tcp_input 在 收 到 SYN 时 计 
算 窗口 大 小 因子 。 

RFC 1323 规 定 如 果 TCP 支 持 缩 放 窗口 ， 即 使 自己 的 偏 移 量 为 0， 也 应 该 发 送 窗口 大 小 选项 。 
因为 这 个 选项 有 两 个 目的 : 通知 对 端 自己 支持 此 选项 ， 通 告 本 地 的 偏 移 量 。 即 使 TCP 计 算得 
到 的 本 地 偏 移 量 为 0， 对 端 可 能 希望 使 用 不 同 的 值 。 

图 26-24 给 出 了 tcp_output 的 下 一 部 分 ， 完 成 在 外 出 报 文 段 中 构造 选项 。 





tcp_output.c 


253 /* 

254 * Send a timestamp and echo-reply if this is a SYN and our side 
255 * wants to use timestamps (TF REQ TSTMP is set) or both our side 
256 * and our peer have sent timestamps in our SYN's. 

257 */ 

258 if ((tp-»t, flags & (TF REQ TSTMP | TF NOOPT)) == TF REQ TSTMP && 
259 (flags & TH RST) == 0 && 

260 ((flags & (TH SYN | TH ACK)) == TH SYN |l 

261 (tp-»t flags & TF RCVD TSTMP))) ( 

262 u long *lp = (u long *) (opt + optlen); 

263 /* Form timestamp option as shown in appendix A of RFC 1323. */ 
264 *lp++ = htonl(TCPOPT TSTAMP HDR); 

265 *lp++ = htonl(tcp now); 

266 *lp = htonl(tp-»ts recent); 

267 optlen += TCPOLEN TSTAMP APPA; 

268 ) 

269 hdrien += optlen; 

270 /* 

271 * Adjust data length if insertion of options will 

272 * bump the packet length beyond the t maxseg length. 

273 */ 

274 if (len > tp-»t,maxseg - optlen) ( 

275 len = tp-»t maxseg - optlen; 

276 sendalot - 1; 

277 } 


tcp_output.c 


图 26-24 tcp outputiü3k: 完成 发 送 选项 构造 


4. RS d X AE BE SLE 
253-261 如 果 下 列 3 个 条 件 均 为 真 ， 则 发 送 时 间 惟 选项 : (UTCP 当 前 配置 要 求 支 持 时 间 戳 选 
Ji; (2) 正 在 构造 的 报 文 段 不 包含 RST 标 志 ; (3) 主 动 打开 (fljags 中 SYN 标 志 置 位 ，ACK 标 志 
未 置 位 )， 或 者 TCP 收 到 了 对 端 发 送 的 时 间 堆 (TF_RCVS_TSTMP)。 与 MSS 和 窗口 大 小 选项 不 
同 ， 只 要 连接 双方 都 同意 支持 它 ， 时 间 惟 可 加 入 到 任意 报 文 段 中 。 

5. 构造 时 间 专 选项 ，、 
263-267 时 间 截 选项 (26.6 节 ) 占 用 12 字 节 (TCPOLEN_TSTAMP_APPRA)。 头 4 个 字 节 为 
0x0101080a( 常 量 TCPOPT_TSTAMP_HDR)， 如 图 26-17 所 示 。 时 间 蕉 值 等 于 cp_now( 系 统 
初 启 到 现在 的 500ms 滴 答 数 )。 时 间 截 回 显 字 段 值 等 于 由 tcp_input 设 定 的 ts_recent。 

6. 选项 加 入 后 是 否 会 造成 报 文 段 长 度 越界 
270-277. 加 入 选项 后 ，TCP 首 部 长 度 会 增加 optlen 字 节 。 如 果 发 送 数 据 的 长 度 (1en) 大 于 
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MSS 减 去 选项 长 度 (opt1len)， 则 必须 相应 地 减少 数据 量 ， 并 置 位 sendalot 标 志 ， 强 迫 函数 
发 送 完 当前 报 文 段 后 进入 另 一 个 循环 (图 26-1)。 

MSS 和 窗口 大 小 选项 只 出 现在 SYN 报 文 段 中 。 由 于 Net/3 不 在 SYN 中 添加 用 户 数 据 ， 因 此 
数据 长 度 的 调整 对 这 两 个 选项 不 起 作用 。 但 如 果 存 在 时 间 改 选项 ， 它 可 以 出 现在 所 有 报 文 段 
中 ， 从 而 降低 了 一 次 可 发 送 的 数据 量 。 最 大 长 度 报 文 段 可 携带 的 数据 从 通告 的 MSS 降 至 MSS 
减 去 12 字 节 。 

图 26-25 给 出 了 tcp_output 下 一 部 分 代码 ， 更 新 部 分 统计 值 ， 并 为 IP 和 TCP 首 部 分 配 
mbuf。 它 在 输出 报 文 段 携 带 有 用 户 数据 (len 大 于 0) 时 执行 。 





278 7s tcp. output.c 

279 * Grab a header mbuf, attaching a copy of data to 

280 * be transmitted, and initialize the header from 

281 * the template for sends on this connection. 

282 */ 

283 if (len) ( 

284 if (tp-»t force && len == 1) 

285 tcpstat.tcps sndprobe-; 

286 else if (SEQ LT(tp-»snd nxt, tp-»snd max)) { 

287 tcpstat.tcps_sndrexmitpack++; 

288 tcpstat.tcps sndrexmitbyte += len; 

289 ) else ( 

290 tcpstat.tcps sndpack«-*; 

291 tcpstat.tcps sndbyte += len; 

292 ) 

293 MGETHDR(m, M DONTWAIT, MT HEADER); 

294 if (m == NULL) ( 

295 error - ENOBUFS; 

296 goto out; 

297 H 

298 m-»m data += max linkhdr; 

299 m-»m len - hdrlen; 

300 if (len <= MHLEN - hdrlen - max linkhár) ( 

301 m copydata(so-»so, snd.sb mb, off, (int) len, 

302 mtod(m, caddr t) + hdrlen); 

303 m-»m len += len; 

304 ) else ( 

305 m-»m next = m copy(í(so-»so snd.sb mb, off, (int) len); 

306 if (m-»m next == 0) 

307 len = 0; 

308 } 

309 /* 

310 * If we're sending everything we've got, set PUSH. 

311 * (This will keep happy those implementations that 

312 * give data to the user only when a buffer fills or 

313 * a PUSH comes in.) 

314 */ 

315 if (off + len == so-»so snd.sb cc) 

316 flags |= TH PUSH; ` 
tcv output.c 





图 26-25 tcp_output 函 数 : 更 新 统计 值 ， 为 TP 和 TCP 首 部 分 配 mbuf 


7. 更 新 统计 值 
284-292 如 果 t_force 非 零 ， 且 用 户 数据 只 有 1 字 节 ， 可 知 是 一 个 窗口 探测 报 文 。 如 果 
snd_nxt 小 于 sndq_max， 则 是 一 个 重 传 报 文 。 其 他 的 都 是 正常 的 数据 传输 报 文 。 
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8. 为 IP 和 TCP 首 部 分 配 mbuf 
293-297 MGETHDR 为 带 有 数据 分 组 首部 的 mbuf 分 配 内 存 ，mbuf 中 保存 IP 和 TCP 的 首部 及 
可 能 的 数据 ( 若 空间 允许 )。 尽 管 Eccp_output 调 用 通常 作为 系统 调用 的 一 部 分 (如 ，write)， 
它 也 可 在 软件 中 断 级 由 tcp_input 调 用 ， 或 作为 定时 器 处 理 的 一 部 分 。 因 此 ， 定 义 了 
M_DONTWAIT。 如 果 返 回 错误 ， 控 制 跳 转 至 “out” 处 。 它 位 于 函数 的 末尾 ， 如 图 26-32 所 
示 。 

9. 向 mbuf 中 复制 数据 
298-308 ”如 果 数 据 少 于 44 字 节 (100-40-16， 假 定 没有 TCP 选 项 )， 数 据 由 m_copydata 和 直接 
从 插 日 的 发 送 缓存 中 复制 到 新 的 数据 组 首部 mbuf 中 。 若 数据 量 较 大 ，m_copy 创 建新 的 mbuf 
链表 ， 复 制 插口 发 送 缓存 中 的 数据 ， 最 后 与 前 面 创 建 的 数据 组 首部 mbuf 链 接 。 回 想 2.9 节 中 介 
绍 过 的 m_copy 函 数 ， 如 果 数 据 本 身 已 是 一 个 艇 、，m_copy 将 不 复制 ， 只 引用 这 个 乱 。 

10. 置 位 PSH 标 志 
309-316 ”如 果 TCP 发 送 了 从 发 送 缓存 得 到 的 所 有 数据 ， 则 PSH 标 志 被 置 位 。 如 同 注 释 中 提 
到 的 ， 这 是 因为 有 些 接 收 系统 只 有 在 收 到 PSH 标 志 或 者 接收 缓存 已 满 时 ， 才 会 向 应 用 程序 递 
交 收 到 的 数据 。 我 们 在 tcp_input 中 将 看 到 ，Net/3 绝 不 会 为 了 等 待 PSH 标 志 ， 而 把 数据 灌 贸 
在 接收 缓存 中 。 

图 26-26 给 出 了 tcp_output 下 一 部 分 的 代码 ， 从 在 len 等 于 0 时 执行 的 else 语 句 开始 ， 
处 理 不 携带 用 户 数 据 的 TCP 报 文 段 。 





317 ) else ( /* len == 0 */ icp-output.c 

318 if (tp-»t flags & TF ACKNOW) 

319 tcpstat.tcps, sndacks-««; 

320 else if (flags & (TH SYN | TH FIN | TH RST)) 

321 tcpstat.tcps sndctrl««*; 

322 else if (SEQ GT(tp-»snd up, tp-»snd una)) 

323 tcpstat.tcps sndurg**; 

324 else 

325 tcpstat.tcps sndwinupe*; 

326 MGETHDR (m, M DONTWAIT, MT HEADER); 

327 if (m == NULL) ( 

328 error - ENOBUFS; 

329 goto out; 

330 } 

331 m-»m data += max linkhdàr; 

332 m-»m len = hdrlen; 

333 } 

334 m-»m pkthdr.rcvif = (struct ifnet *) 0; 

335 ti - mtod(m, struct tcpiphdr *); 

336 if (tp-»t, template -- 0) 

337 panic("tcp output"); 

338 bcopy((caddr t) tp-»t template, (caddr t) ti, sizeof(struct tcpiphdr)); 
tcp output.c 





图 26-26 tcp_output 函数 : 更 新 统计 值 ， 为 PP 和 TCP 首 部 分 配 mbuf 


11. 更 新 统计 值 
318-325 需要 更 新 的 统计 值 有 : TF_ACKNOW 和 长 度 为 0 说 明 是 一 个 纯 ACK 报 文 段 。 如 采 
SYN、FIN 或 RST 中 任何 一 个 置 位 ， 即 为 控制 报 文 段 。 如 果 紧 急 指 针 超 过 snd_una， 是 为 了 
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通知 对 端 紧 急 指针 的 位 置 。 如 果 上 述 条 件 均 为 假 ， 则 是 窗口 更 新 报 文 段 。 
12. 得 到 存储 IP 和 TCP 首 部 的 mbuf 
326-335 为 带 有 数据 包 组 首部 的 mbuf 分 配 内 存 ， 以 保存 IP 和 TCP 的 首部 。 
13. 向 mbuf 中 复制 IP 和 TCP 首 部 模板 
336-338 bcopy 把 IP 和 TCP 首 部 模板 从 t_template 复 制 到 mbuf 中 。 这 个 模板 由 
tcp_template 创 建 。 
图 26-27 给 出 了 tcp_output 下 一 部 分 的 代码 ， 填 充 TCP 首 部 剩余 的 字段 。 


339 m tcp output.c 
340 * Fill in fields, remembering maximum advertised 
341 * window for use in delaying messages about window sizes. 
342 * If resending a FIN, be sure not to use a new sequence number. 
343 */ 
344 if (flags & TH FIN && tp-»t flags & TF SENTFIN && 
345 tp-»snd nxt == tp-»snd max) 
346 tp-»snd, nxt--; 
347 /* 
348 * If we are doing retransmissions, then snd nxt will 
349 * not reflect the first unsent octet. For ACK only 
350 * packets, we do not want the sequence number of the 
351 * retransmitted packet, we want the sequence number 
352 * of the next unsent octet. So, if there is no data 
353 * (and no SYN or FIN), use snd max instead of snd nxt 
354 * when filling in ti_seq. But if we are in persist 
355 * state, snd max might reflect one byte beyond the 
356 * right edge of the window, so use snd nxt in that 
357 * case, since we know we aren't doing a retransmission. 
358 * (retransmit and persist are mutually exclusive...) 
359 */ 
360 if (len || (flags & (TH SYN | TH FIN)) || tp-»t timer(TCPT PERSIST]) 
361 ti-»ti seq - htonl(tp-»snd nxt); 
362 else 
363 ti--ti seq = htonl(tp-»snd,max); 
364 ti-»ti ack = htonl(tp-»rcv nxt); 
365 if (optlen) { 
366 bcopyí((caddr t) opt, (caddr t) (ti + 1), optlen); 
367 ti-»ti off = (sizeof(struct tcphdr) + optlen) >> 2; 
368 ) 
369 ti-»ti flags = flags; 
icp output.c 


图 26-27 tcp output Zr: Eííti seq. ti ackfti flags 


14. 如 果 RFRIN 将 重 传 ， 递 减 snd_nxf 
339-346 如 果 TCP 已 经 发 送 过 FIN， 则 发 送 序列 空间 如 图 26-28 所 示 。 因 此 ， 如 果 TH_FIN 置 
位 ， 则 TF_SENTFIN 也 置 位 ， 并 且 sndq_nxt 等 于 snd_max， 可 知 FIN 等 待 重 传 。 不 久 将 看 到 
(图 26-31)， 发 送 FIN 时 ，snq_nxt 会 递增 1( 由 于 FIN 也 要 占用 一 个 序号 )， 因 此 ， 这 里 的 代码 
递减 snd_nxt。 

15. 设置 报 文 段 的 序号 字段 
347-363 报 文 段 的 序号 字段 通常 等 于 snd_nxt， 但 在 满足 下 列 条 件 时 ， 应 等 于 sndq_max: 
如 果 (1) 不 传输 数据 (1en 等 于 0); (2) SYN 标 志和 FIN 标 志 都 未 置 位 ; (3) 持续 定时 器 未 置 位 。 
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m 


已 发 送 和 确认 à 
snd una - 10 snd nxt = 11 
snd max = 11 


图 26-28 FEIN 发 送 后 的 发 送 序列 空间 

16. 设置 报 文 段 的 确认 字段 
364 报 文 段 的 确认 字段 通常 等 于 rcv_nxt， 期 待 接收 的 下 一 个 序号 。 

17. 如 果 存 在 首部 选项 ， 设 置 首部 长 度 字段 
365-368 ”如果 存 在 TCP 选 项 (opt1len 大 于 0)， 代 码 把 选项 内 容 复 制 到 TCP 首 部 ，TCP 首 部 4 
bit 的 首部 长 度 字 段 (图 24-10 的 th_off) 等 于 TCP 首 部 的 固定 长 度 (20 字 节 ) 加 上 选项 总 长 度 后 除 
以 4。 这 个 字段 是 以 32 bit 为 单位 的 首部 长 度 值 ， 包 括 TCP 选 项 。 
369 TCP 首 部 的 标志 字段 根据 变量 flags 设 定 。 

图 26-29 给 出 了 下 一 部 分 的 代码 ， 填 充 TCP 首 部 其 他 字段 ， 并 计算 TCP 检 验 和 。 


376 去 tcp output.c 
371 * Calculate receive window. Don't shrink window, 

372 * but avoid silly window syndrome. 

373 */ 

374 if (win < (long) (so-»so, rcv.sb,hiwat / 4) && win < (long) tp-»t maxseg) 
375 win - 0; 

376 if (win > (long) TCP MAXWIN << tp-»rcv, scale) 

377 win - (long) TCP MAXWIN «« tp-»rcv scale; 

378 if (win < (long) (tp-»rcv,adv - tp-»rcv. nxt)) 

379 win = (long) (tp-»rcv. adv - tp-»rcv nxt); 

380 ti-»ti win = htons((u.short) (win >> tp-»rcv, scale)): 

381 if (SEQ GT(tp-»snd up, tp-»snd nxt)) { 

382 ti-»ti urp = htons((u short) (tp-»snd up - tp-»snd nxt)); 
383 ti-»ti flags |- TH URG; | 

384 } else 

385 /* 

386 * If no urgent pointer to send, then we puli 

387 * the urgent pointer to the left edge of the send window 
388 * so that it doesn't drift into the send window on sequence 
389 * number wraparound. 

390 */ 

391 tp-»snd, up = tp-»snd una; /* drag it along */ 

392 /* 

393 * Put TCP length in extended header, and then 

394 * checksum extended header and data. 

395 */ 

396 if (len + optlen) 

397 ti-»ti len = htons((u short) (sizeof(struct tcphdr) + 

398 optlen « len)); 

399 ti-»ti sum = in cksum(m, (int) (hdrien + len]); 


tcp output.c 


图 26-29 tcp_output A$: 填充 其 他 TCP 首 部 字段 并 计算 检验 和 
18. 通告 的 窗口 大 小 应 大 于 最 大 报 文 段 长 度 
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370-375 计算 向 对 端 通告 的 窗口 大 小 (ti_win) 时 ， 应 考虑 如 何 避 免 糊 涂 窗口 综合 症 。 回 想 
图 26-3 结 尾 处 ，win 等 于 插口 的 接收 缓存 大 小 。 如 果 win 小 于 接收 缓存 大 小 的 
LU4(so_rcv.sb_hiwat)， 并 且 小 于 一 个 最 大 报 文 段 长 度 ， 则 通告 的 窗口 大 小 设 为 0， 从 而 在 
后 续 测 试 中 防止 窗口 缩小 。 也 就 是 说 ， 如 果 可 用 空间 已 达到 接收 缓存 大 小 的 1M4， 或 者 等 于 最 
大 报 文 段 长 度 ， 将 向 对 端 发 送 窗 口 更 新 通告 。 

19. 遵守 连接 的 通告 窗口 大 小 的 上 限 
376-377 如 果 win 大 于 连接 规定 的 最 大 值 ， 应 将 其 减少 为 最 大 值 。 

20. 不 要 缩小 窗口 
378-379 回想 图 26-10 中 ，zrcv_adv 减 去 rcv_nxt 等 于 最 近 一 次 向 发 送 方 通告 的 窗口 大 小 
中 的 剩余 空间 。 如 果 win 小 于 它 ， 应 将 其 设 定 为 该 值 ， 因 为 不 允许 缩小 窗口 。 有 时 尽管 剩余 
的 可 用 空间 小 于 最 大 报 文 段 长 度 (因此 ，win 在 代码 起 始 处 被 置 为 0)， 但 还 可 以 容纳 一 些 数 据 ， 
就 会 出 现 这 种 情况 。 卷 1 中 的 图 22-3 举 例 说 明了 这 一 现象 。 

21. 设置 紧急 数据 偏 移 量 
381-383 ”如 果 紧 急 指 针 (snd_up) 大 于 snd_nxt， 则 TCP 处 于 紧急 方式 。TCP 首 部 的 紧急 数 
据 偏 移 量 字 段 设 定 为 以 报 文 段 起 始 序号 为 基准 的 紧急 指针 的 16 bit 偏 移 量 , 并 且 置 位 URG 标 志 。 
无 论 所 指向 的 紧急 数据 是 否 包含 在 当前 处 理 的 报 文 段 中 ，TCP 都 会 发 送 紧急 数据 偏 移 量 和 
URG 标 志 。 

图 26-30 举 例 说 明了 如 何 计算 紧急 数据 偏 移 量 ， 假 定 应 用 进程 执行 了 

send(fd, buf, 3, MSG OOB); 
并 且 调 用 send 时 发 送 缓存 为 空 。 这 种 做 法 表明 基于 Berkeley 的 系统 认为 紧急 指针 应 指向 带 
外 数据 后 的 第 一 个 字 节 。 回 想 图 24-10 中 ， 我 们 区 分 了 数据 流 中 32 bit 的 紧急 指针 (snd_up)， 
和 TCP 首 部 中 的 16 bit 紧 急 数 据 偏 移 量 (ti_urp)。 

这 里 有 个 小 错误 。 无 论 是 否 采 用 窗口 大 小 选项 ， 如 果 发 送 缓存 大 于 65535， 并 且 

几乎 为 室 ， 则 应 用 进程 发 送 带 外 数据 时 ， 从 snd_nxt 算 起 的 紧急 指针 的 偏 移 量 有 可 

能 超过 65535。 但 偏 移 量 是 一 个 16 bit 的 无 符号 整数 ， 如 果 计 算 结果 超过 65535 ， 高 位 

16 bit 被 于 并， 发 送 到 对 端的 数据 必然 是 错误 的 。 解 决 办 法 参见 习题 26.6。 
384-391 如 果 TCP 不 处 于 紧急 方式 ， 则 紧急 指针 移 向 窗口 的 最 左 端 (snd_una)。 
392-399 TCP 长 度 存储 在 伪 首 部 中 以 计算 TCP 检 验 和 。 发 送 序列 
到 目前 为 止 TCP 首 部 的 所 有 字段 已 填充 完毕 ,而 且 从 ^—-"nasbocc-3" 
t_templiate 复 制 IP 和 TCP 首 部 模板 时 (图 26-26)， 对 伪 





首部 中 用 到 的 IP 首 部 部 分 字段 预先 做 了 初始 化 ( 见 图 23-19 | 7 “ 
中 UDP 检 验 和 的 计算 )。 4 i 
图 26-31 给 出 了 tcp_output 下 一 部 分 的 代码 ，SYN snauna snd_up=7 
或 FIN 标 志 置 位 时 更 新 序号 ， 并 启动 重 传 定时 器 。 - 由 PRU_SENDOOB 设 轩 
22. 保存 起 始 序号 紧急 数据 偏 移 量 =3 
400-405 ”如 果 TCP 不 处 于 持续 状态 ， 则 起 始 序号 保存 由 Cp_output 设 定 


在 startseq 中 。 图 26-31 中 的 代码 在 对 报 文 段 计 时 时 用 图 26-30 紧急 指针 与 紧急 数据 
到 这 一 变量 。 偏 移 量 计算 举例 
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100 tcp output.c 
401 * In transmit state, time the transmission and arrange for 
402 * the retransmit. In persist state, just set snd max. 

403 

404 (tp-»t force == 0 || tp-»t timer[TCPT PERSIST] == 0) ( 
405 tcp seq startseq - tp-»snd nxt; 

406 /* 

407 * Advance snd nxt over sequence space of this segment. 
408 */ 

409 if (flags & (TH SYN | TH_FIN)) ( 

410 if (flags & TH SYN) 

411 tp-»snd nxt«-*; 

412 if (flags & TH,FIN) ( 

413 tp-»snd nxt*s-4; 

414 tp-»t.flags |= TF SENTFIN; 

415 ) 

416 } 

417 tp->snd_nxt += len; 

418 if (SEQ_GT(tp->snd nxt, tp->snd max)) { 

419 tp->snd_max = tp-»snd nxt; 

420 /* 

421 * Time this transmission if not a retransmission and 
422 * not currently timing anything. 

423 */ 

424 if (tp-»t rtt == 0) ( 

425 tp-»t rtt - 1; 

426 tp-»t rtseq = startseq; 

427 tcpstat.tcps segstimed-««; 

428 } 

429 } 

430 /* 

431 * Set retransmit timer if not currently set, 

432 * and not doing an ack or a keepalive probe. 

433 * Initial value for retransmit timer is smoothed 

434 * round-trip time + 2 * round-trip time variance. 

435 * Initialize counter which is used for backoff 

436 * of retransmit time. 

437 */ 

438 if (tp-»t, timer[TCPT REXMT] == 0 && 

439 tp-»snd nxt != tp-»snd una) { 

440 tp-»t timer[TCPT REXMT] = tp-»t, rxtcur; 

441 if (tp-»t, timer[TCPT PERSIST]) ( 

442 tp-»t timer[TCPT PERSIST] = 0; 

443 tp-»t rxtshift = 0; 

444 ) 

445 } 

446 ) else if (SEQ GT(tp-»snd nxt + len, tp-»snd max)) 

447 tp-»snd max = tp-»snd nxt + len; tcp, output.c 


图 26-31 tcp output: 更 新 序号 并 启动 重 传 定时 器 


23. 增加 snd_nxt 
406-417 由 于 SYN 和 FIN 都 占用 一 个 序号 ， 其 中 任 一 标志 置 位 ，sn9_nxt 都 必须 增加 。FIN 
发 送 过 后 ，TF_SENTFIN 将 置 位 。 之 后 ，snd_nxt 增 加 发 送 的 数据 字 节 数 (1en)， 可 以 为 0。 
24. 更 新 snd_max 
418-419 如 果 snd_nxt 的 最 新 值 大 于 snd_max， 则 不 是 重 传 报 文 。 snd_max 值 被 更 新 。 
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420-428 如 果 连 接 目前 还 没有 RTT 值 (t_rtt=0)， 则 定时 器 启动 (t_rtt=1)， 计 时 报 文 段 的 
起 始 序号 保存 在 t_rtseq 中 。tcp_input 利 用 它 确定 计时 报 文 段 ACK 的 到 达 时 间 ， 从 而 更 
新 RTT。 根 据 25.10 节 中 的 讨论 ， 代 码 应 为 : 


if (tp-»t rtt && SEO GT(ti-»ti ack, tp-»t, rtseq)) 
tcp xmit timer(tp, tp-»t rtt); 


设 定 重 传 定时 器 

430-440 ”如果 重 传 定时 器 还 未 启动 ， 并 且 报 文 段 中 有 数据 ， 则 重 传 定时 器 时 限 设 定 为 
t_rxtcur。 前 面 已 经 介绍 过 ， 通 过 测量 RTT 样 本 值 ，tcp_xmit_timer 将 更 新 t_rxtcur。 
但 如 果 snq_nxt 等 于 snd_una( 此 时 sna_nxt 中 已 加 入 了 1en)， 则 是 一 个 纯 ACK 报 文 段 ， 而 
只 有 在 发 送 数据 报 文 段 时 才 需 要 启动 重 传 定时 器 。 
441-444 如果 持 续 定时 器 已 启动 ， 则 关闭 它 。 对 于 给 定 连接 ， 可 以 在 任何 时 候 启动 重 传 定 
时 器 或 者 持续 定时 器 ， 但 两 者 不 允许 同时 存在 。 

26. 持续 状态 
446-447 由 于 t_force 非 零 ， 而 且 持 续 定 时 器 已 设 定 ， 可 知 连接 处 于 持续 状态 (与 图 26-31 起 
始 处 的 if 语句 配对 的 else 语 句 )。 需 要 时 ， 更 新 sndq_max。 处 于 持续 状态 时 ，1len 应 等 于 1 。 

tcp_output 的 最 后 一 部 分 ， 在 图 26-32 中 给 出 ， 输 出 报 文 段 准备 完毕 ， 调 用 
ip_output 发 送 数 据 报 。 





" "3 7 tcp output.c 
449 * Trace. 

450 */ 

451 if (so-»so options & SO DEBUG) 

452 tcp trace(TA OUTPUT, tp-»t state, tp, ti, 0); 

453 /* 

454 * Fill in IP length and desired time to live and 

455 * send to IP level. There should be a better way 

456 * to handle ttl and tos; we could keep them in 

457 * the template, but need a way to checksum without them. 

458 */ 

459 m-»m, pkthdr.len = hdrlen + len; 

460 ((struct ip *) ti)-»ip len = m-»m,pkthdr.len; 

461 ((struct ip *) ti)-»ip ttl = tp-»t inpcb-»inp ip.ip ttl; /* XXX */ 
462 ((struct ip *) ti)-»ip tos = tp-»t inpcb-»inp, ip.ip. tos; /* XXX */ 
463 error = ip output(m, tp-»t inpcb-»inp options, &tp-»t, inpcb-»inp route, 
464 SO-»S0 Options & SO DONTROUTE, 0); 

465 if (error) ( 

466 out: 

467 if (error == ENOBUFS) { 

468 tcp quenchí(tp-»t inpcb, 0); 

469 return (0); 

470 J 

471 if (lerror == EHOSTUNREACH || error -- ENETDOWN) 

472 && TCPS HAVERCVDSYN(tp-»t state)) ( 

473 tp-»t, softerror = error; 

474 return (0); 

475 } 

476 return (error); 

477 ) 


图 26-32 tcp output: 调用 ip_output 发 送 报 文 段 
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478 tcpstat.tcps, sndtotal-««; 

479 /* 

480 * Data sent (as far as we can tell). 

481 * If this advertises a larger window than any other segment, 
482 * then remember the size of the advertised window. 
483 * Any pending ACK has now been sent. 

484 */ 

485 if (win > 0 && SEQ GT(tp-»rcv nxt + win, tp-»rcv  adv)) 
486 tp-»rcv, adv = tp-»rcv nxt + win; 

487 tp-»-iast ack sent = tp-»rcv nxt; 

488 ` tp-»t flags &- ^(TF.ACKNOW | TF DELACK); 

489 if (sendalot) 

490 goto again; 

491 return (0); 

492 ] 





tcp. output.c 
图 26-32 (8) 


27. 为 插口 调试 添加 路 由 记录 
448-452 如 果 选 用 了 SO_DEBUG 选 项 ，tcp_trace 会 在 TCP 的 循环 路 由 缓存 中 添加 一 条 记 
录 ，27.10 节 将 详细 讨论 这 个 函数 。 

28. 设置 IP 长 度 、TTL 和 TOS 
453-462 IP 首 部 的 3 个 字段 必须 由 传输 层 设 置 IP 长 度 、TTL 和 TOS， 图 23-19 底 部 用 星 号 强 
调 了 这 3 个 特殊 字段 。 

注意 ， 注 释 的 内 容 为 “XXX”， 这 是 因为 尽管 对 于 给 定 连 接 ，TTL 和 TOS 通 常 是 

常量 ， 可 以 保存 在 首部 模板 中 ， 无 需 每 次 发 送 报 文 段 时 都 明确 赋值 。 只 有 当 TCP 检 验 

和 计算 完毕 后 ， 这 两 个 字段 才能 填 入 IP 首 部 ， 因 此 只 能 这 样 实现 。 

29. 向 IP 传 递 数 据 报 
/ 463-464 ”ip_output 发 送 携带 TCP 报 文 段 的 数据 报 。TCP 的 插口 选项 和 SO_DONTROUTE 风 
辑 与 ， 从 而 能 向 下层 传送 的 插口 选项 只 有 一 个 : SO_DONTROUTE。 尽 管 ip_output 还 测试 另 
一 个 选项 SO_BROADCAST， 但 即使 设 定 了 它 ， 与 50_DONTROUTE 的 逻辑 与 也 会 将 其 关闭 。 也 
就 是 说 ， 应 用 进程 不 允许 向 一 个 广播 地 址 发 送 connect， 即 使 它 设 定 了 SO_BROADCAST 选 项 。 
467-470 如果 接口 队列 已 满 ， 或 者 IP 请 求 分 配 mbuf 失 败 ， 则 返回 差错 码 ENOBUFS。 
tcp_quench 把 拥塞 窗口 设 定 为 只 能 容纳 一 个 最 大 报 文 段 长 度 ， 强 连连 接 执行 慢 起 动 。 注 意 ， 
出 现 上 述 情况 时 ，TCP 仍 旧 返 回 0(OK)， 而 非 错误 ， 即 使 数据 报 实际 已 丢弃 。 这 与 
udp_output( 图 23-20) 不 同 ， 后 者 返回 一 个 错误 。TCP 将 通过 超时 重 传 该 数据 报 (数据 报 文 
段 )， 希 望 那 时 在 接口 输出 队列 中 会 有 可 用 空间 或 者 能 申请 到 更 多 的 mbuf。 如 果 TCP 报 文 段 不 
包含 数据 ， 对 端 由 于 未 收 到 ACK 而 引发 超时 时 ， 将 重 传 由 丢失 的 ACK 所 确认 的 数据 。 
471-475 如果 连 接 已 收 到 一 个 SYN， 但 找 不 到 至 目的 地 的 路 由 ， 则 记录 连接 上 出 现 了 一 个 
软 错 误 。 

当 tcp_output 被 tcp_usrreq 调 用 ， 做 为 应 用 进程 系统 调用 的 一 部 分 时 (参见 第 30 章 ， 
PRU_CONNECT、PRU_SEND、PRU_SENDOOB 和 PRU_SHUTDOWN 请 求 )， 应 用 进程 将 接收 
tcp_output 的 返回 值 。 其 他 调用 tcp_output 的 函数 ， 如 tcp_input、 快 超时 函数 和 慢 
超时 函数 ， 忽 略 其 返回 值 (因为 这 些 函 数 不 向 应 用 进程 返回 差错 码 )。 - 
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30. $£ijprcv advfelast ack sent 
479-486 如 果 报 文 段 中 通告 的 最 高 序号 (rcv_nxt 加 上 win) 大 于 rcv_adv， 则 保存 新 的 值 。 
回想 图 26-9 中 利用 rcv_adv 确 定 最 后 一 个 报 文 段 发 送 后 新 增 的 可 用 空间 ， 以 及 图 26-29 中 利用 
它 确定 TCP 设 有 缩小 窗口 。 
487 报 文 段 确认 字段 的 值 保存 在 last_ack_sent 中 ，tcp_input 利 用 它 处 理 时 间 惟 选项 


(图 26-6)。 


488 由 于 所 有 延迟 的 ACK 都 已 被 发 送 ，TF_ACKNOW 和 TF_DELACK 标 志 被 清除 。 

31. 是 否 还 有 数据 需要 发 送 
489-490 如 果 sendalot 标 志 置 位 ， 控 制 跳 回 到 again 处 (图 26-1D)。 如 果 发 送 缓存 中 的 数据 
超过 一 个 最 大 长 度 报 文 段 的 容量 (图 26-3)， 或 者 由 于 加 入 TCP 选 项 ， 降 低 了 最 大 长 度 报 文 段 的 
数据 容量 ， 无 法 在 一 个 报 文 段 中 将 缓存 中 的 数据 发 送 完毕 时 ， 控 制 将 折 回 。 


26.8 tcp_template žít 


创建 插口 时 ， 将 调用 tcp_newtcpcb( 见 前 一 章 ) 为 TCP 控 制 块 分 配 内 存 ， 并 完成 部 分 初 
始 化 。 当 在 插口 上 发 送 或 接收 第 一 个 报 文 段 时 (主动 打开 ，PRU_CONNECT 请 求 ， 或 者 在 监听 
的 插口 上 收 到 了 一 个 SYN)，tcp_template 为 连接 的 IP 和 TCP 的 首部 创建 一 个 模 坂 ， 从 而 减 
少 了 报 文 段 发 送 时 tcp_output 的 工作 量 。 

图 26-33 给 出 了 tcpb_template 国 数 。 





59 struct tcpiphdr * 
60 tcp template(tp) 
61 struct tcpcb *tp; 


62 ( 


struct inpcb *inp = tp-»t inpcb; 
struct mbuf *m; 
struct tcpiphdr *n; 


if ((n = tp-»t template) == O) ( 
m - m get (M, DONTWAIT, MT HEADER); 
if (m -- NULL) 


return (0); 
m-»m len - sizeof(struct tcpiphdr); 
n = mtod(m, struct tcpiphdr *); 
} 


n-»ti, next n-»ti prev - 0; 


n-»ti x1 - 0; 
n-»ti pr = IPPROTO, TCP; 
n-»ti len htons(sizeof(struct tcpiphdr) - sizeof(struct ip)); 


inp-»inp laddr; 
inp-»inp, faddr; 
inp-»inp lport; 
inp-»inp fport; 


n-»ti.src 
n-»ti dst 
n-»ti, sport = 
n-»ti dport = 
n-»ti seq = 0; 
n-»ti ack = 0 
n-»ti x2 - 0; 
n-»ti off - 
n-»ti flags 
n-»ti win 
n-»ti sum 
n-»ti, urp 
return (n); 


/* 5 32-bit words - 20 bytes */ 


coc! u 





图 26-33 tcb_template 国 数 : 创建 IP 和 TCP 首 部 的 模板 


tcp. subr.c 


tcp. subr.c 
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1. 分 配 mbuf 
59-72 IP 和 TCP 的 首部 模板 在 一 个 mbuf 中 组 建 ， 指 向 这 个 mbuf 的 指针 存储 在 TCP 榨 制 块 的 
t_template 成 员 变 量 中 。 由 于 这 个 函数 可 在 软件 中 断 级 被 Lcp_input 调 用 ， 
M_DONTWRAIT 标 志 置 位 。 

2. 初始 化 首部 字段 
73-88 除 下 列 字段 外 ， 卫 和 TCP 首 部 的 其 他 字段 均 置 为 0: ti_pr 等 于 TCP 的 IP 协 议 值 (6); 
ti_len 等 于 20，TCP 首 部 的 默认 值 ; ti_off 等 于 5、TCP 首 部 长 度 ， 以 32 bit 为 单位 ; 此 外 ， 
还 要 从 Internet PCB 中 把 源 IP 地 址 、 目 的 IP 地 址 和 TCP 端 口号 复制 到 TCP 首 部 模板 中 。 

3. 用 于 TCP 检 验 和 计算 的 伪 首 部 
73-88 ”由 于 预先 对 IP 和 TCP 首 部 中 许多 字段 做 了 初始 化 ， 简 化 了 TCP 检 验 和 的 计算 ， 方 法 与 
23.6 节 中 讨论 过 的 UDP 首部 检验 和 的 计算 方式 相同 。 参 考 图 23-19 中 的 udpiphdzr 结 构 ， 请 读 
者 自己 思考 为 什么 tcp_template 将 ti_next 和 ti_prev 等 字段 初始 化 为 0。 


26.9 tcp_respond m% 


未 数 Ecp_respond 尽 管 也 调用 ip_output 发 送 IP 数 据 报 ， 但 用 途 不 同 。 主 要 在 下 面 两 
种 情况 下 调用 它 : 

1) tcp_input 调 用 它 生 成 RST 报 文 段 ， 携 带 或 不 携带 ACK:; 

2) tcp_timers 调 用 它 发 送 保 活 探 测报 文 。 

在 这 两 种 特 珠 情况 下 ，TCP 调 用 tcp_respond， 取 代 tcp_output 中 复杂 的 逻辑 。 但 请 
注意 ， 下 一 章 中 讨论 的 tcp_drop 函 数 调用 tcp_output 来 生成 RST 报 文 段 。 并 非 所 有 的 
RST 报 文 段 都 由 tcp_respond 和 后 成 。 

图 26-34 给 出 了 tcp_respond 的 前 半 部 分 。 

104 void tep_subr.c 

105 tcp respond(tp, ti, m, ack, seq, flags) 

106 struct tcpcb *tp; 

107 struct tcpiphdr *ti; 


108 struct mbuf *m; 
109 tcp Seq ack, seq; 


110 int flags; 

111 ( 

112 int tlen; 

113 int win - 0; 

114 struct route *ro = 0; 

115 if (tp) { 

116 win = sbspace(&ktp-»t inpcb-»inp, socket ->so_rcv); 
117 ro = ktp-»t inpcb-»inp route; 

118 } 

119 if (m == 0) { /* generate keepalive probe */ 
120 m - m gethdr(M DONTWAIT, MT HEADER); 

121 if (m z- NULL) 

122 return; 

123 tlen = 0; /* no data is sent */ 
124 m-»m data += max linkhdr; 

125 *mtod(m, struct tcpiphdr *) - *ti; 


图 26-34 tcp respondi: 前 半 部 分 
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126 ti = mtod(m, struct tcpiphdr *); 
127 flags = TH, ACK; 
128 ) else ( /* generate RST segment */ 
129 m freem(m-»m next); 
130 m-»m next = 0; 
131 '" m-»m data = (caddr.t) ti; 
132 m-»m len = sizeof(struct tcpiphdr); 
133 tlen = 0; 
134 fdefine xchg(a,b,type) ( type t; t=a; a=b; b-t; ) 
135 xchg(ti-»ti dst.s addr, ti-»ti src.s addr, u long); 
136 xchg (ti->ti dport, ti-»ti sport, u short); 
137 #undef xchg 
138 2 
tcp subr.c 
Rj26-34 (£3) 


104-110 图 26-35 列 出 了 3 种 不 同情 况 下 调用 tcp_respond 时 其 参数 的 变化 。 





图 26-35 tcp_respond 的 参数 


tp 是 指向 TCP 控 制 块 的 指针 (可 能 为 空 ); ti 是 指向 IP 和 TCP 首 部 模板 的 指针 ; m 是 指向 
mbuf 的 指针 ， 其 中 的 报 文 段 引发 RST。 最 后 3 个 参数 是 确认 字段 、 序号 字段 和 待 生成 报 文 段 的 

志 字 段 。 
113-118 ”如 果 tcp_input 收 到 一 个 不 属于 任何 连接 的 报 文身， 则 有 可 能 生成 RST。 例 如 ， 
收 到 的 报 文 段 中 没有 指明 任何 现存 连接 (如 ，SYN 指 明 的 端口 上 没有 正在 监听 的 服务 器 )。 这 种 
情况 下 ，tp 为 空 ， 使 用 win 和 ro 的 初始 值 。 如 果 tp 不 空 ， 则 通告 窗口 大 小 将 等 于 接收 缓存 中 
的 可 用 空间 ， 指 向 缓存 路 由 的 指针 保存 在 ro 中 ， 在 后 面 调用 tcp_input 时 会 用 到 。 

l. 保 活 定时 器 超时 后 发 送 保 活 探测 
119-127 参数 m 是 指向 接收 报 文 段 的 nbuf 链 表 的 指针 。 但 保 活 探测 报 文 只 有 当 保 活 定时 器 
超时 时 才 会 被 发 送 ， 收 到 的 TCP 报 文 段 不 可 能 引发 此 项 操作 ， 因 此 m 为 空 ， 由 m_gethdr 分 配 
保存 IP 和 TCP 首 部 的 mbuf。TCP 数 据 长 度 tlen， 设 为 0， 因 为 保 活 探测 报 文 不 包含 任何 用 户 
数据 。 

有 些 基 于 4.2BSD 的 较 老 的 系统 不 响应 保 活 探测 报 文 ， 除 非 它 携 带 数 据 。 通 过 配 

置 ， 在 编译 内 核 时 定义 TCP_COMPAT_42，Net/3 能 够 在 保 活 探测 报 文中 携带 一 个 字 

节 的 无 效 数据 ， 以 引出 这 些 系 统 的 响应 。 这 种 情况 下 ，tlen 设 为 1， 而 非 0。 无 效 字 

节 不 会 造成 不 良 后 果 , 因为 它 不 是 对 方正 等 待 (而 是 一 个 对 方 已 接收 并 确认 过 ) 的 字 节 ， 

AMAA RC. 

利用 赋值 语句 把 ti 指向 的 TCP 首 部 模板 结构 复制 到 mbuf 的 数据 部 分 ， 之 后 指针 ti 将 被 重 
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新 设 定 ， 指 向 mbuf 中 的 首部 模板 。 

2. 发 送 RST 报 文 段 
128-138 接收 到 的 报 文 让 有 可 能 会 引发 cp_input 发 送 RST。 发 送 RST 时 ， 保 存 输 入 报 文 
段 的 mbuf 可 以 重用 。 因 为 fcp_respond 生 成 的 报 文 段 中 只 包含 下 首部 和 TCP 首 部 ， 因 此 ， 除 
第 一 个 mbuf 之 外 (数据 分 组 首部 )，m_free 将 释放 链表 中 其 余 的 所 有 mbuf。 另 外 ，IP 首 部 和 
TCP 首 部 中 的 源 IP 地 址 和 目的 IP 地 址 及 端口 号 应 互 换 。 

图 26-36 给 出 了 tcp_respond 的 后 半 部 分 。 


- - - tcp. subr.c 
139 ti-»ti len = htons((u short) (sizeof(struct tcphdr) + tlen)); 
140 tlen += sizeof(struct tcpiphdr); 
141 Im-»m len = tlen; 
142 m-»m pkthdr.len - tlen; 
143 m-»m pkthdr.rcvif - (struct ifnet *) 0; 
144 ti-»ti next - ti-»ti prev - 0; 
145 ti-»ti x1 = 0; 
146 ti-»ti seq = htonl(seq); 
147 ti-»ti ack = htonl(ack); 
148 ti-»ti x2 = 0; 
149 ti-»ti off = sizeof (struct tcphdr) >> 2; 
150 ti-»ti flags = flags; 
151 if (tp) 
152 ti-»ti win = htons((u.short) (win >> tp-»rcv, scale)); 
153 else 
154 ti-»ti win = htons((u, short) win); 
155 ti-»ti urp = 0; 
156 ti-»ti sum = 0; 
157 ti-»ti sum = in cksum(m, tlen); 
158 ((struct ip *) ti)-»ip.len = tlen; 
159 ((struct ip *) ti)-»ip ttl = ip defttl; 
160 (void) ip output(m, NULL, ro, 0, NULL)? 
161! tcp. subr.c 


图 26-36 tcp respondIW ZA: 后 半 部 分 


139-157 为 计算 TCP 检 验 和 ，IP 和 TCP 首 部 字段 必须 被 初始 化 。 这 些 语句 与 
tcp_template 初 始 化 t_template 字 段 的 方式 类 似 。 序 号 和 确认 字段 由 调用 者 提供 ， 最 后 
调用 ip_output 发 送 数 据 分 组 。 


26.10 ”小结 


本 章 讨 论 了 生成 大 多 数 TCP 报 文 段 的 通用 函数 (tcp_output) 及 生成 RST 报 文 段 和 保 活 探 
测 的 特殊 国 数 (tcp_respong)。 . 

TCP 是 否 发 送 报 文 段 取决 于 许多 因素 : 报 文 段 中 的 标志 、 对 端 通告 的 窗口 大 小 、 待 发 送 
的 数据 量 以 及 连接 上 是 否 存 在 未 确认 的 数据 等 等 。 因 此 ，tcp_output 中 的 逻辑 决定 了 是 否 
发 送 报 文 段 (函数 的 前 半 部 分 )， 如 果 需 要 发 送 ， 如 何 填 充 TCP 首 部 的 字段 (函数 后 半 部 分 )。 报 
文 段 发 送 之 后 ， 还 需要 更 新 TCP 控 制 块 中 的 相应 变量 。 

tcp_output 一 次 只 生成 一 个 报 文 段 ， 但 它 在 结尾 处 会 测试 是 否 还 有 剩余 数据 等 待 发 送 ， 
如 果 有 ， 控 制 将 折 回 ， 并 试图 发 送 下 一 个 报 文 段 。 这 样 的 循环 会 一 直 持 续 到 数据 全 部 发 送 完 
毕 ， 或 者 有 其 他 停止 传输 的 条 件 出 现 (接收 方 的 窗口 通告 )。 
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TCP 报 文 段 中 可 以 携带 选项 。Net/3 支 持 的 选项 规定 了 最 大 报 文 段 长 度 、 窗 口 大 小 缩放 因 
子 和 一 对 时 间 戳 。 头 两 个 选项 只 能 出 现在 SYN 报 文 段 中 ， 而 时 间 改 选项 (如 果 连 接 双方 都 支持 ) 
能 够 出 现在 所 有 报 文 段 中 。 因 为 窗口 大 小 和 时 间 惟 是 新 增 的 选项 ， 如 果 主 动 打开 的 一 端 希望 
使 用 这 些 选 项 ， 则 必须 在 自己 发 送 的 SYN 中 添加 它们 ， 并 且 只 有 在 对 端 发 回 的 SYN 也 包含 了 


同样 的 选项 时 才能 使 用 。 
习题 
26.1 图 26-1 中 ， 如 果 发 送 数据 过 程 中 出 现 停顿 ，TCP 将 返回 慢 启 动 状 态 ， 而 空闲 时 间 被 


26.2 


26.3 


26.4 


26.5 


26.6 


26.7 


26.8 
26.9 
26.10 


26.11 


26.12 


26.13 


设 定 为 从 最 后 一 次 收 到 报 文 段 到 现在 的 时 间 。 为 什么 TCP 不 将 空闲 时 间 设 定 为 从 最 
后 一 次 发 送 报 文 到 现在 的 时 间 ? 

图 26-6 中 ， 我 们 说 如 果 FIN 已 发 送 ， 但 还 未 被 确认 且 没 有 重 传 ， 此 时 1en 小 于 0。 如 
果 FIN 已 重 传 ， 情 况 会 怎样 ? 

Net/3 总 在 主动 打开 时 发 送 窗口 大 小 和 时 间 蕉 选项 。 为 什么 需要 全 局 变量 
tcp_do_rfc 1323? 

图 25-28 中 的 例子 未 使 用 时 间 戳 ，RTT 估 算 值 被 更 新 了 8 次 。 如 果 使 用 了 时 间 戳 ， 
RTT 估 算 值 会 被 更 新 几 次 ? 

图 26-23 中 ， 调 用 bcopy 把 收 到 的 MSS 存 储 在 变量 mss 中 。 为 什么 不 对 指向 opt[2] 
的 指针 做 强制 转换 ， 变 为 不 带 符号 的 短 整 型 指针 ， 并 利用 赋值 语句 完成 这 一 操作 ? 
在 图 26-29 后 面 ， 我 们 讨论 了 代码 的 一 个 错误 ， 可 能 会 导致 发 送 一 个 错误 的 紧急 数 
据 偏 移 量 。 提 出 你 的 解决 方案 。( 提 示 : 一 个 TCP 报 文中 能 够 发 送 的 最 大 数据 量 是 多 
少 ? ) 

图 26-32 中 ， 我 们 提 到 不 会 向 应 用 进程 返回 差错 代码 ENOBUFS， 因 为 (1) 如 果 丢 弃 的 
是 数据 报 文 ， 重 传 定时 器 超时 后 数据 将 被 重 传 ; (2) 如 果 委 弃 的 是 纯 ACK 报 文 ， 对 
端 收 不 到 ACK 时 会 重 传 对 应 的 数据 报 文 。 如 果 丢 弃 的 是 RST 报 文 ， 情 况 会 怎样 ? 
解释 卷 1 图 20-3 中 PSH 标 志 的 设 定 。 

为 什么 图 26-36 使 用 ip_deftt1 作 为 TTL 的 值 ， 而 图 26-32 却 使 用 PCB? 

如 果 应 用 进程 规定 的 IP 选 项 是 用 于 TCP 连 接 的 ， 图 26-25 中 分 配 的 mbuf 会 出 现 什么 
情况 ”实现 一 个 更 好 的 方案 。 

tcp_output 国 数 很 长 (包括 注释 约 $00 行 )， 看 上 去 效率 不 高 ， 其 中 许多 代码 用 于 
处 理 特殊 情况 。 假 定 函 数 只 用 于 处 理 准 备 好 的 最 大 长 度 报 文 ， 且 没有 特殊 情况 : 
无 IP 选 项 ， 无 特殊 标志 如 SYN、FIN 或 URG。 实 际 执行 的 约 有 多 少 行 C 代 码 ? 报 文 
递交 给 ip_output 之 前 会 调用 多 少 国 数 ? 

26.3 节 结尾 的 例子 中 ， 应 用 程序 向 连接 写 入 100 字 节 ， 接 着 又 写 入 50 字 节 。 如 果 应 
用 程序 为 两 个 缓存 各 调用 一 次 writev， 而 不 是 调用 write 两 次 ， 有 何不 同 ? 如 
果 两 个 缓存 大 小 分 别 为 200 和 300， 而 不 是 100 和 50， 调 用 writev 时 又 有 何不 同 ? 
在 时 间 葵 选项 中 发 送 的 时 间 惟 来 自 于 全 局 变量 Lcp_now， 它 每 300ms 递 增 一 次 。 
修改 TCP 代 码 ， 使 用 更 精确 的 时 间 戳 值 。 


第 27 章 TCP 的 函数 


本 童 介绍 多 个 TCP 函 数 ， 它 们 为 下 两 章 进一步 讨论 TCP 的 输入 打下 了 基础 : 

“tcp_drain 是 协议 的 资源 耗 尽 处 理 函 数 ， 当 内 核 的 mbuf 用 完 时 被 调用 。 实 际 上 ， 不 做 
任何 处 理 。 

。tcp_drop 发 送 RST 来 丢弃 连接 。 

。tcp_close 执 行 正常 的 TCP 连 接 关 闭 操作 : 发 送 FIN， 并 等 待 协议 要 求 的 4 次 报 文 交 换 
以 终止 连接 。 卷 1 的 18.2 节 讨论 了 连接 关闭 时 双方 需要 交换 的 4 个 报 文 。 
“tcp_mss 处 理 收 到 的 MSS 选 项 ， 并 在 TCP 发 送 自己 的 MSS 选 项 时 计算 应 填 人 的 MSS 值 。 
“tcp_ctlinput 在 收 到 对 应 于 某 个 TCP 报 文 段 的 ICMP 差 错时 被 调用 ， 它 接着 调用 
tcp_notify 处 理 ICMP 差 错 。tcp_quench 专 门 负责 处 理 ICMP 的 源 站 抑制 差错 。 

。TCP_REASS 宏 和 tcp_reass 函 数 管理 连接 重组 队列 中 的 报 文 段 。 重 组 队列 处 理 收 到 的 
乱 序 报 文 段 ， 某 些 报 文 段 还 可 能 互相 重复 。 

。tcp_trace 向 内 核 的 TCP 调 试 循环 缓存 中 添加 记录 (插口 选项 SO_DEBUG)。 运 行 trpt 
(8) 程 序 可 以 打印 缓存 内 容 。 


27.2 tcp_dGrain 函 数 


tcp_drain 是 所 有 TCP 函 数 中 最 简单 的 。 它 是 协议 的 pr_drain 函 数 ， 在 内 核 的 mbuf 用 
完 时 ， 由 m_reclaim 调 用 。 图 10-32 中 ，ip._drain 丢 弃 其 重组 队列 中 的 所 有 数据 报 分 片 ， 
而 UDP 则 不 定义 自己 的 资源 耗 尽 处 理 函 数 。 尽 管 TCP 也 占用 mbuf 一 一 位 于 接收 窗口 内 的 乱 序 
报 文 段 一 一 但 Net/3 实 现 的 TCP 并 不 丢弃 这 些 mbuf， 即 使 内 核 的 mbuf 已 用 完 。 相 反 ， 
tcp_drain 不 做 任何 处 理 ， 假 定 收 到 的 (但 次 序 差 错 ) 的 TCP 报 文 段 比 IP 分 片 重要 。 


27.3 tcp dropifZ 


tcp_drop 在 整个 系统 中 多 次 被 调用 ， 发 送 RST 报 文 段 以 丢弃 连接 ， 并 向 应 用 进程 返回 差 
错 。 它 与 关闭 连接 (tcp_disconnect 国 数 ) 不 同 ， 后 者 向 对 端 发 送 FIN， 并 遵守 TCP 状 态 变 
迁 图 所 规定 的 连接 终止 步骤 。 

图 27-1 列 出 了 调用 tcp_drop 的 7 种 情况 和 相应 的 errno 参 数 。 

图 27-2 给 出 了 tcp_dqrop 国 数 。 

202-213 如 果 TCP 收 到 了 一 个 SYN， 连 接 被 同步 ， 则 必须 向 对 端 发 送 RST。tcpP_qrop 把 状态 
设 为 CLOSED， 并 调用 tcp_output。 从 图 24-16 可 知 ，CLOSED 状 态 的 tcp_outflags 数 组 中 


包含 RST 标 志 。 
214-216 如果 errno 等 于 ETIMEDOUT， 且 连接 上 曾 收 到 过 软 差错 (如 EHOSTUNREACH)， 
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软 差错 代码 将 取代 内 容 不 确定 的 ETIMEDOUT， 做 为 返回 的 插口 差错 。 
217 tcp_close 结 束 插口 关闭 操作 。 


tcp input ENOBUFS 监听 服务 器 收 到 SYN， 但 内 核 无 法 为 t_template 分 配 所 需 的 
mbuf 

收 到 的 RST 是 对 本 地 发 送 的 SYN 的 响应 

在 现存 连接 上 收 到 了 RST 


重 传 定时 器 连续 超时 13 次 ， 仍 来 收 到 对 端的 ACK( 图 25-25) 


tcp.timers | ETIMEDOUT 连接 建立 定时 器 超时 (图 25-16)， 或 者 保 活 定时 器 超时 ， 且 连续 
9 次 发 送 窗口 探测 报 文 段 ， 对 方 均 无 响应 


ECONNABORTED PRU_ABORT 请 求 





图 27-1 调用 ccp_qrop 国 数 和 errno 参 数 


tcp subr.c 
202 struct tcpcb * 
203 tcp drop(tp, errno) 
204 struct tcpcb *tp; 
205 int errno; 
206 ( 
207 Struct socket *so - tp-»t, inpcb-»inp.socket; 
208 if (TCPS, HAVERCVDSYN (tp-»t, state)) ( 
209 tp-»t state = TCPS, CLOSED; 
210 (void) tcp output (tp) ; 
211 tcpstat.tcps, drops-««; 
212 ) else 
213 tcpstat.tcps, conndrops««; 
214 if (errno -- ETIMEDOUT && tp-»t softerror) 
215 errno = tp-»t softerror; 
216 SO-»-80, error = errno; 
217 return (tcp close(tp)); 
28) tcp subr.c 


图 27-2 tcp dropERUE 


27.4 tcp closet? 


通常 情况 下 ， 如 果 应 用 进程 被 动 关 闭 ， 且 在 LAST_ACK 状 态 时 收 到 了 ACK，tcp_input 
将 调用 tcp_close 关 闭 连 接 ; 或 者 当 2MSL 定 时 器 超时 ， 播 口 从 TIME_WAIT 状 态 变 迁 到 
CLOSED 状 态 时 ，tcp_timers 也 会 调用 tcp_close。 它 也 可 以 在 其 他 状态 被 调用 ， 一 种 可 
能 是 发 生 了 差错 ， 如 上 一 小 节 讨 论 过 的 情况 。tcp_close 释 放 连 接 占 用 的 内 存 (IP 和 TCP 首 部 
模板 、TCP 控 制 块 、Internet PCB 和 保存 在 连接 重组 队列 中 的 所 有 乱 序 报 文 段 )， 并 更 新 路 由 特 


性 。 
我 们 分 3 部 分 讲解 这 个 函数 ， 前 两 部 分 讨论 路 由 特性 ， 最 后 一 部 分 介绍 资源 释放 。 


27.4.1 路 由 特性 
rt_metrics 结 构 ( 图 18-26) 中 保存 了 9 个 变量 ， 有 6 个 用 于 TCP。 其 中 8 个 变量 可 通过 
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route (8) 命 令 读 写 (第 9 个 ，rmx_pksent 未 使 用 ): 图 27-3 列 出 了 这 些 变量 。 此 外 ， 运 行 
route 命 令 时 ， 加 入 -1ock 选 项 ， 可 以 设置 rmx_locks 成 员 变 量 (图 20-13) 中 对 应 的 RTV_xxx 
比特 ， 告 诉 内 核 不 要 更 新 对 应 的 路 由 参数 。 

关闭 TCP HR, mR TIREE: 连接 上 传输 的 数据 量 足 够 生成 有 效 的 统计 值 ， 并 
且 变 量 未 被 锁定 ，tcp_close 将 更 新 3 个 路 由 参数 一 一 已 平 请 的 RIT 估 计 器 、 已 平 靖 的 RTT 平 
均 偏 差 估 计 器 和 慢 起 动 门限 。 


tcp_close 是 否 tcp_mss 是 否 
zxt_metzrics 成 员 | 保存 该 成 员 | | 使 用 该 成 员 | route(8) 附 加 参数 


rmx_expire -expire 
rmx hopcount -hopcount 
rmx mtu -mtu 

rmx recvpipe -recvpipe 
rmx rtt -rtt 

rmx rttvar -rttvar 
rmx sendpipe -sendpipe 
rmx ssthresh -ssthresh 


图 27-3 TCP 用 到 的 rt_metrics 结 构 中 的 变量 


图 27-4 给 出 了 tcp_close 的 第 一 部 分 。 

1. 判断 是 否 发 送 了 足够 的 数据 量 
234-248 默认 的 发 送 缓存 大 小 为 8192 字 节 (sb_hiwat)， 因 此 首先 比较 初始 发 送 序号 和 连 
接 上 已 发 送 的 最 大 序号 ， 测 试 是 否 已 传输 了 131 072 字 节 (16 个 完整 的 缓存 ) 的 数据 。 此 外 ， 插 
口 还 必须 有 一 条 非 默 认 路 由 的 缓存 路 由 (参见 习题 19.2)。 
请 注意 ， 如 果 传 输 的 数据 量 在 Nx 2*(N>1) 和 N x23+131072(N>1) 之 间 ， 则 因为 
序号 可 能 回 绕 ， 比 较 时 也 许 会 出 现 问 题 ， 尽 管 可 能 性 不 大 。 但 目前 很 少 有 连接 会 传 
输 4 G 的 数据 。 
尽管 Internet 上 存在 大 量 的 默认 路 由 ， 丝 存 路 由 对 于 维护 有 效 的 路 由 表 还 是 很 有 
用 的 。 如 果 主 机 长 期 与 另外 某 个 主机 (或 网 络 ) 交 换 数 据 ， 即 使 默认 路 由 可 用 ， 也 应 运 
行 Toute 命 令 向 路 由 表 中 添加 源 站 选 路 和 目的 选 路 的 路 由 ， 从 而 在 整 条 连接 上 维护 
有 效 的 路 由 信息 (参见 习题 19.2)。 这 些 信息 在 系统 重启 时 丢失 。 
250 管理 员 可 以 锁定 图 27-3 中 的 变量 ， 防 止 内 核 修改 它们 。 因 此 ， 代 码 在 更 新 这 些 变量 之 前 ， 
必须 先 检查 其 锁定 状态 。 

2. 更 新 RTT 
251-264 t_srtt 的 单位 为 8 个 滴答 (图 25-19)， 而 rmx_rtt 的 单位 为 微 秒 。 因 此 ， 首 先 必须 
实现 单位 换算 ，t_srtt 乘 以 1 000 O00(RTM RTTUNIT), 除 以 2( 滴 答 / 秒 ) 再 乘 以 8， 得 到 RTT 
的 最 新 值 。 如 果 rmx_rtt 值 已 存在 ， 它 被 更 新 为 最 新 值 与 原 有 值 和 的 一 半 ， 即 两 者 的 平均 值 。 
如 果 不 存 在 ， 最 新 值 将 直接 赋 给 rmx_rtt 变 量 。 

3. 更 新 平均 偏差 
265-273 更 新 平均 偏差 的 算法 与 更 新 RTT 的 类 似 ， 也 需要 把 单位 为 4 个 滴答 的 f_rttvaz 换 
算 为 以 微 秒 为 单位 。 
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t . 
225 struct tcpcb * cp. subr.c 


226 tcp. close(tp) 
227 struct tcpcb *tp; 


228 ( 

229 struct tcpiphdr *t; 

230 struct inpcb *inp = tp-»t inpcb; 

231 struct socket *so = inp-»inp,. Socket; 

232 struct mbuf *m; 

233 struct rtentry *rt; 

234 /* 

235 * If we sent enough data to get some meaningful characteristics, 
236 * save them in the routing entry.  'Enough' is arbitrarily 
237 * defined as the sendpipesize (default 8K) * 16. This would 
238 * give us 16 rtt samples assuming we only get one sample per 
239 * window (the usual case on a long haul net). 16 samples is 
240 * enough for the srtt filter to converge to within 5$ of the correct 
241 * value; fewer samples and we could save a very bogus rtt. 
242 * 

243 * Don't update the default route's characteristics and don't 
244 * update anything that the user "locked". 

245 */ 

246 if (SEQ LT(tp-»iss + so-»so snd.sb hiwat * 16, tp-»snd max) && 
247 (rt = inp-»inp route.ro rt) && 

248 ((struct sockaddr in *) rt key(rt))-»sin addr.s addr !- INADDR ANY) ( 
249 u long i; ^ 

250 if ((rt-»rt rmx.rmx locks & RTV RTT) == 0) ( 

251 i = tp-»t srtt * 

252 (RTM RTTUNIT / (PR,.SLOWHZ * TCP RTT SCALE)); 

253 if (rt-»rt rmx.rmx rtt && i) 

254 /* 

255 * filter this update to half the old & half 

256 * the new values, converting scale. 

257 * See route.h and tcp var.h for a 

258 * description of the scaling constants. 

259 */ 

260 rt-»rt rmx.rmx rtt - 

261 (rt-»rt, rmx.rmx rtt + i) / 2; 

262 else 

263 rt-»rt rmx.rmx rtt - i; 

264 ) 

265 if ((rt-»rt rmx.rmx locks & RTV RTTVAR) -- 0) ( 

266 i = tp-»t rttvar * 
. 267 (RTM RTTUNIT / (PR SLOWHZ * TCP RTTVAR SCALE)); 
268 if (rt-»rt rmx.rmx rttvar &k& i) 

269 rt-»rt, rmx.rmx rttvar - 

270 (rt-»rt rmx.rmx rttvar + i) / 2; 

271 else 

272 rt-»rt, rmx.rmx rttvar - i; 

273 } 





tcp_subr.c 
图 27-4 tcp closes: 更 新 RTT 和 平均 偏差 


图 27-5 给 出 了 tcp_close 的 下 一 部 分 代码 ， 更 新 路 由 的 慢 起 动 门限 。 
274-283 ”满足 下 列 条 件 时 ， 慢 起 动 门限 被 更 新 : (1) 它 被 更 新 过 (rmx_ssthresh 非 零 ); Q) 
管理 员 规 定 了 rmx_sendapipe， 而 snd_ssthresh 的 最 新 值 小 于 rmx_sendpipe 的 一 半 。 
如 同 代码 注释 中 指出 的 ，TCP 不 会 更 新 rmx._ssthresh 值 ， 除 非 因为 数据 分 组 丢失 而 不 得 不 
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这 样 做 。 从 这 个 角度 出 发 ， 除 非 十 分 必要 ，TCP 不 会 修改 门限 值 。 





Zn 7 tcp subr.c 
275 * update the pipelimit (ssthresh) if it has been updated 
276 * already or if a pipesize was specified & the threshhold 
277 * got below half the pipesize. I.e., wait for bad news 
278 * before we start updating, then update on both good 

279 * and bad news. 

280 */ 

281 if ((rt-»rt rmx.rmx locks & RTV SSTHRESH) -- 0 && 

282 (i = tp-»snd ssthresh) && rt-»rt rmx.rmx,ssthresh [| 
283 i « (rt-»rt rmx.rmx sendpipe / 2)) ( 

284 /* 

285 * convert the limit from user data bytes to 

286 * packets then to packet data bytes. 

287 */ 

288 i = (i + tp-»t maxseg / 2) / tp-»t, maxseg; 

289 if (i« 2) 

290 i = 2; 

291 i *- (u long) (tp-»t maxseg + sizeof(struct tcpiphdr)); 
292 if (rt-»rt, rmx.rmx ssthresh) 

293 rt-»rt rmx.rmx ssthresh - 

294 (rt-»rt, rmx.rmx ssthresh + i) / 2; 

295 else 

296 rt-»rt rmx.rmx ssthresh - i; 

297 H 

298 d tcp subr.c 


图 27-5 tcp close% 更 新 慢 起 动 门限 
284-290 ”变量 snd_ssthresh 以 字 节 为 单位 ， 除 以 MSS(t_maxseg) 得 到 报 文 段 数 ， 加 上 
1/2t_maxseg 是 为 了 保证 总 报 文 段 容量 必定 大 于 snd_ssthresh 字 节 。 报 文 段 数 的 下 限 为 2 


个 报 文 段 。 
291-297 MSS 加 上 IP 和 TCP 首 部 大 小 (40)， 再 乘 以 报 文 段 数 ， 利 用 得 到 的 结果 来 更 新 


rmx_ssthresh， 采 用 的 算法 与 图 27-4 中 的 相同 (新 值 的 112 加 上 原 有 值 的 1/2)。 


27.4.2 资源 释放 
图 27-6 给 出 了 tcp_close 的 最 后 一 部 分 ， 释 放 插 口 占 用 的 内 存 资 源 。 


tcp_subr.c 
299 /* free the reassembly queue, if any */ 
300 t = tp-»seg next; 
301 while (t !- (struct tcpiphdr *) tp) ( 
302 t = (struct tcpiphdr *) t-»ti, next; 
303 m = REASS MBUF((struct tcpiphdr *) t-»ti prev); 
304 remque (t-»ti. prev); . 
305 m freem(m); 
306 } 
307 if (tp->t_template) 
308 (void) m free(dtom(tp-»t template)); 
309 free(tp, M PCB); 
310 inp-»inp. ppcb = 0; 


图 27-6 tcp_close 国 数 : 释放 连接 资源 
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311 Soisdisconnected(so); 

312 /* clobber input pcb cache if.we're closing the cached connection */ 
313 if (inp == tcp last inpcb) 

314 tcp.last, inpcb = &tcb; 

315 in, pcbdetach (inp): 

316 tcpstat.tcps, closed-*-; 

317 return ((struct tcpcb *) 0); 

318 ) 


tcp. subr.c 
图 27-6 (£5) 


1. 释放 重组 队列 占用 的 mbuf 
299-306 如果 连接 重组 队列 中 还 有 报 文 段 ， 则 丢弃 它们 。 重 组 队列 用 于 存放 收 到 位 于 接收 
窗口 内 、 但 次 序 差 错 的 报 文 段 。 在 等 待 接收 的 正常 序列 报 文 段 到 达 之 前 ， 它 们 会 一 直 保 存在 
重组 队列 中 ; 之 后 ， 报 文 段 被 重组 并 递交 给 应 用 程序 。27.9 节 会 详细 讨论 这 一 过 程 。 

2. 释放 首部 模板 和 TCP 控 制 块 
307-309 调用 m_free 释 放 IP 和 TCP 首 部 模板 ， 调 用 free 释 放 TCP 控 制 块 ， 调 用 
sodisconnectedq 发 送 PRU_DISCONNECT 请 求 ， 标 记 择 口 已 断 开 连接 。 

3. 释放 PCB 
310-318 如果 播 口 的 Internet PCB 保 存在 TCP 的 高 速 缓 存 中 ， 则 把 TCP 的 PCB 链 表 表 头 赋 给 
tcp_last_inpcb， 以 清空 缓存 。 接 着 调用 in_pcbdetach 释 放 PCB 占 用 的 内 存 。 


27.5 tcp mss 


tcp_mss 被 两 个 函数 调用 : 

1) tcp_output， 淮 备 发 送 SYN 时 调用 ， 以 添加 MSS 选 项 ; 

2) tcp_input， 收 到 的 SYN 报 文 段 中 包含 MSS 选 项 时 调用 ; . 

tcp mss: dE Ss HHA, VERERDHT DOERITIMSS, 

图 27-7 给 出 了 tcp_mss 第 一 部 分 的 代码 ， 如 果 PCB 中 没有 到 达 目 的 地 的 路 由 ， 则 设法 得 
到 所 需 的 路 由 。 





tcp. input.c 
1391 int PP 


1392 tcp mss (tp, offer) 
1393 struct tcpcb *tp; 
1394 u int offer; 


1395 ( 

1396 struct route *ro; 

1397 struct rtentry *rt; 
1398 struct ifnet *ifp; 

1399 int rtt, mss; 

1400 u long bufsize; 

1401 struct inpcb *inp; 

1402 struct socket *so; 

1403 extern int tcp mssdfit; 
1404 inp = tp-»t, inpcb; 

1405 ro = &inp-»inp route; 
1406 if ((rt = ro-»ro rt) == (struct rtentry *) 0) { 


图 27-7 tcp_mss 函 数 ; 如 果 PCB 中 设 有 路 由 ， 则 设法 得 到 所 需 路 由 
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1407 /* No route yet, so try to acquire one */ 

1408 if (inp-»inp.faddr.s addr !- INADDR ANY) ( 

1409 ro-»ro dst.sa family - AF INET; 

1410 ro-»ro, dst.sa len = sizeof(ro-»ro dst); 

14121 ((struct sockaddr in *) &ro-»ro, dst)-»sin addr = 

1412 inp-»inp. faddr; 

1413 rtalloc (ro); 

1414 ) 

1415 if ((rt = ro-»ro rt) == (struct rtentry *) 0) 

1416 return (tcp mssdflt); 

1417 } 

1418 ifp = rt->rt_ifp; 

1419 so = inp-»inp socket; . 

tcp input.c 

图 27-7 ( 续 ) . 


1. 如 果 需 要 ， 就 获取 路 由 
1391-1417 如 果 插 口 没有 高 速 缓存 路 由 ， 则 调用 rtal1loc 得 到 一 条 。 与 外 出 路 由 相关 的 接 
口 指针 存储 在 i fp 中。 外 出 接口 是 非常 重要 的 ， 因 为 其 MTU 会 影响 TCP 通 告 的 MSS。 如 果 无 
法 得 到 所 需 路 由 ， 函 数 就 立即 返回 默认 值 $S12 (tcp_mssdf1t)。 

图 27-8 给 出 了 tcp_mss 的 下 一 部 分 代码 ， 判 断 得 到 的 路 由 是 否 有 相应 的 参数 表 。 如 果 有 ， 
则 变量 t_rttmin、t_srtt 和 t_rttvar 将 初始 化 为 参数 表 中 的 对 应 值 。 








1420 7« tcp. input.c 

1421 ` * While we're here, check if there's an initial rtt 

1422 * or rttvar. Convert from the route-table units 

1423 * to scaled multiples of the slow timeout timer. 

1424 */ . 

1425 if (tp-»t srtt == 0 && (rtt = rt-»rt rmx.rmx rtt)) ( 

1426 /* 

1427 * XXX the lock bit for RTT indicates that the value 

1428 * is also a minimum value; this is subject to time. 

1429 */ 

1430 if (rt-»rt rmx.rmx locks & RTV RTT) 

1431 tp-»t rttmin - rtt / (RTM RTTUNIT / PR .SLOWHZ) ; 

1432 tp-»t, srtt = rtt / (RTM RTTUNIT / (PR.SLOWHZ * TCP RTT SCALE)); 

1433 if (rt-»rt rmx.rmx rttvar) 

1434 tp-»t rttvar - rt-»rt rmx.rmx rttvar / 

1435 (RTM RTTUNIT / (PR SLOWHZ * TCP RTTVAR SCALE)); 

1436 else 

1437 /* default variation is «- 1 rtt */ 

1438 tp-»t rttvar = 

1439 tp-»t srtt * TCP RTTVAR SCALE / TCP.RTT.SCALE; 

1440 TCPT RANGESET (tp-»t rxtcur, 

1441 ((tp-»t.srtt >> 2) + tp-»t rttvar) >> 1, 

1442 tp-»t rttmin, TCPTV REXMTMAX); 

1443 ) . 
tcp. input.c 


图 27-8 tcp_mss 函 数 ， 判 断路 由 是 否 有 相应 的 RTT 参 数 表 


2. 初始 化 已 平滑 的 RTT 估 计 器 
1420-1432 ”如 果 连 接 上 不 存在 RTT 样 本 值 (t_srtt=0)， 并 且 rmx_rtt 非 零 ， 则 将 后 者 赋 
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给 已 平滑 的 RTT 估 计 器 t_srtt。 如 果 路 由 参数 表 锁 定 标志 的 RTV_RTT 比 特 置 位 ， 表 明 连 接 
的 最 小 RTT(t_rttmin) 也 应 初始 化 为 rmx_rtt。 前 面 介绍 过 ，tcp_newtcpcb 把 
t_rttmin 初 始 化 为 2 个 滴答 。 

rmx_rtt( 以 微 秒 为 单位 ) 转 换 为 t_srtt( 以 8 个 滴答 为 单位 ), 这 是 图 27-4 的 反 变换 。 注意 ， 
t_rttmin 等 于 t_srtt 的 V8， 因 为 前 者 没有 除 以 缩放 因子 TCP_RTT_SCALE。 

3. 初始 化 已 平滑 的 RTT 平 均 偏差 估计 器 
1433-1439 如 果 存 储 的 rmx_rttvar( 以 微 秒 为 单位 ) 值 非 零 ， 将 其 转换 为 t_rttvar (以 4 
个 滴答 为 单位 )。 但 如 果 为 零 ， 则 t_rttvar 等 于 t_rtt， 即 偏差 等 于 均值 。 已 平滑 的 RTT 平 
均 偏差 估计 器 默认 设置 为 +1 RTT。 由 于 t_rttvar 的 单位 为 4 个 滴答 ， 而 t_rtt 的 单位 为 8 个 
滴答 ，t_szrtt 值 也 必须 做 相应 转换 。 l 

4. 计算 初始 RTO 
1440-1442 计算 当前 的 RTO， 并 存储 在 t_rxtcur 中 ， 采 用 下 列 算式 更 新 : 

RTO=srtt+2 x rttvar 

计算 第 一 个 RTO 时 ， 乘 数 取 2， 而 非 4， 上 式 与 图 25-21 中 用 到 的 算式 相同 。 将 缩放 关系 代 

入 ， 得 到 : 
t.srtt 


t rttvar 4 
4 2 


^t rttvar 
t srtt 一 
RTO=—— ~ +2x 


即 为 TCPT_RANGESET 的 第 二 个 参数 。 
图 27-9 给 出 了 tcp_mss 的 下 一 部 分 ， 计 算 MSS。 





1444 7s tcp input.c 
1445 * if there's an mtu associated with the route, use it 
1446 */ 
1447 if (rt-»rt rmx.rmx mtu) 
1448 mss = rt-»rt rmx.rmx mtu - sizeof(struct tcpiphdr); 
1449 else ( 
1450 mss = ifp-»if mtu - sizeof(struct tcpiphdr); 
1451 #if (MCLBYTES & (MCLBYTES - 1)) == 0 
1452 if (mss » MCLBYTES) 
1453 mss &- "(MCLBYTES - 1); 
1454 #else 
1455 if (mss » MCLBYTES) 
1456 mss - mss / MCLBYTES * MCLBYTES; 
1457 #endif 
1458 if (1in localaddr (inp-»inp. faddr)) 
1459 mss - min(mss, tcp mssdflt); 
1460 H . 
tcp. input.c 





图 27-9 tcp_mss 图 数 : 计算 mss 


5. 从 路 由 表 中 的 MTU 得 到 MSS 
1444-1450 ”如 果 路 由 表 中 的 MTU 有 值 ， 则 将 其 赋 给 mss。 如 果 没 有 ， 则 mss 初 始 值 等 于 外 
出 接口 的 MTU 值 减 去 40(IP 和 TCP 首 部 默认 值 )。 对 于 以 太 网 ，MSS 初 始 值 应 为 1460。 

6. 减 小 MSS， 令 其 等 于 MCLBYTES 的 倍数 
1451-1457 如 果 mss 大 于 MCLBYTES， 则 减 小 mss 的 值 ， 令 其 等 于 最 接近 的 
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MCLBYTES(mbuff& K /] )if] By. dm EMCLBYTESÍ[É GA SE $ F 102432048) I 9MCLBY TES fÉ 
减 1 逻 辑 与 后 等 于 0， 说 明 MCLBYTES 等 于 2 的 倍数 。 例 如 ，1024(0x400) 逻 辑 与 1023(0x3ff) 
等 于 0。 

代码 通过 清 零 mss 的 若干 低位 比特 ， 将 mss 减 小 到 最 接近 的 MCLBYTBES 的 倍数 : An 
mbuf 答 大 小 为 1024，mss 与 1023 的 二 进 制 补 码 (0xfffffc00) 逻 辑 与 ， 低 位 的 10 bit 被 清 零 。 
对 于 以 太 网 ，mss 将 从 1460 减 至 1024。 如 果 mbuf 徐 大 小 为 2048， 与 2047 的 二 进 制 补 码 
(0xffff8000) 逻 辑 与 ， 低 位 的 11 bit 被 清 零 。 对 于 令 牌 环 ，MTU 大 小 为 4464， 上 述 运算 将 
mss 上 大 4424 减 为 4096。 如 果 MCLBYTES 不 是 2 的 倍数 ， 代码 用 mss 整 数 除 以 4CLBYTES 司 ， 再 
乘 上 MCLBYTES， 从 而 将 mss 减 小 到 最 接近 的 MCLBYTES 的 倍数 。 

7. 判断 目的 地 是 本 地 地 址 还 是 远 端 地 址 
1458-1459 如 果 目 的 IP 不 是 本 地 地 址 (in_localaddr 返 回 零 )， 有 mss 大 于 
512(tcp_mssdf1lt)， 则 将 mss 设 为 512。 


IP 地 址 是 否 为 本 地 地 址 取决 于 全 局 变量 subnetsarelocal， 内 核 编译 时 把 符 
号 变量 SUBNETSARELOCAL 的 值 赋 给 它 。 上 默认 值 为 1， 意 味 着 如 果 给 定 IP 地 址 与 主机 
任 一 接口 的 IP 地 址 具有 相同 的 网 络 ID， 则 被 认为 是 一 个 本 地 地 址 。 如 果 为 0， 则 给 定 
IP 地 址 必须 与 主机 任 一 接口 的 IP 地 址 具有 相同 的 网 络 号 和 子 网 号 ， 才 会 被 认为 是 一 个 
本 地 地 址 。 

对 于 非 本 地 地 址 ， 将 MSS 最 小 化 是 为 了 避免 JP 数据 报 经 广域网 时 被 分 片 。 绝 大 多 
数 WAN 链 路 的 MTU 只 有 1006， 这 是 从 ARPANET 址 留 下 来 的 一 个 问题 。 在 卷 1 的 11.7 
节 中 讨论 过 ， 现 代 的 多 数 WAN 支 持 1500， 其 至 更 大 的 MTU。 感 兴趣 的 读者 还 可 阅读 
卷 1 的 24.2 节 中 讨论 的 路 由 MTU 发 现 特 性 (RFC 1191, [Mogul and Deering 1990])。 
Net/3 不 支持 路 由 MTU 发 现 。 


图 27-10 给 出 了 tcp_mss 最 后 一 部 分 的 代码 。 

8. 对 端的 MSS 用 作 上 限 
1461-1472 如 果 tcp_mss 被 tcp_ NU 参数 offer 非 零 ， 等 于 对 端 通告 的 mss 值 。 
如 果 mss 大 于 对 端 通告 的 值 ， 则 将 of fer 赋 给 它 。 例 如 ， 如 果 函 数 计算 得 到 的 mss 等 于 1024， 
但 对 端 通告 的 值 只 有 512， 则 mss 必须 被 设 定 为 512。 相反 ， 如 果 mss 等 于 536( 即 输出 MTU 等 
于 576)， 而 对 端 通告 的 值 为 1460，TCP 仍 旧 使 用 36。 只 要 不 超过 对 端 通告 的 值 ，mss 可 以 取 
小 于 它 的 任何 一 个 值 。 如 果 上 cp_mss 被 tcp_output 调 用 ，offer 等 于 0， 用 于 发 送 MSS 选 
项 。 注 意 ， 尽 管 mss 的 上 限 可 变 ， 其 下 限 固定 为 32。 
1473-1483 如 果 mss 小 于 tcp_newtcpcb 中 设 定 的 默认 值 t_maxseg(512)， 或 者 如 果 TCP 正 
在 处 理 收 到 的 MSS 选 项 (of fez 非 零 )， 则 需 执 行 下 列 步骤 。 首 先 ， 如 果 路 由 的 rmx_sendqpipe 
有 值 ， 则 采用 它 做 为 发 送 缓存 的 高 端 (high-waten 标 志 ( 图 16-4)。 如 果 缓 存 小 于 mss， 则 使 用 较 . 
小 的 值 。 除 非 是 应 用 程序 有 意 把 发 送 缓存 定 得 很 小 ， 或 者 管理 员 将 rmx_sendpipe 定 得 很 小 ， 
这 种 情况 一 般 不 会 发 生 ， 因 为 发 送 缓存 的 上 限 默认 值 为 8192， 大 于 绝 大 多 数 的 mss。 

9. 增加 缓存 大 小 ， 令 其 等 于 最 近 的 MSS 整 数 售 
1484-1489 ”增加 缓存 大 小 ， 令 其 等 于 最 近 的 mss 整 数 倍 ， 上 限 为 sb_max(Net/3 中 定义 为 
262 144 ， 即 256 x 1024)。 插 口 发送 缓 存 的 上 限 设 定 为 sbreserve。 例 如 ， 上 限 默 认 值 等 于 
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8192， 但 对 于 以 太 网 上 的 本 地 TCP 传 输 ， 其 mbuf 徐 大 小 为 2048( 假 定 mss 等 于 1460)， 代 码 把 上 
限 值 增加 到 8760( 等 于 6 x 1460)。 但 对 于 非 本 地 的 连接 ，mss 等 于 512， 上 限 值 保持 8192 不 变 。 





1461 
1462 
1463 
1464 
1465 
1466 
1467 
1468 
1469 
1470 
1471 
1472 
1473 
1474 
1475 
1476 
1477 
1478 
1479 
1480 
1481 
1482 
1483 
1484 
1485 
1486 
1487 
1488 
1489 
1490 


1491 
1492 
1493 
1494 
1495 
1496 
1497 
1498 
1499 
1500 
1501 
1502 
1503 
1504 
1505 
1506 
1507 
1508 
1509 
1510 
1511 ) 





tcp. input.c 


/* 

* The current mss, t maxseg, was initialized to the default value 
* of 512 (tcp omssdflt) by tcp newtcpcb(). 

* If we compute a smaller value, reduce the current mss. 

* If we compute a larger value, return it for use in sending 

* a max seg size option, but don't store it for use 

* unless we received an offer at least that large from peer. 

* 

* 
f 


However, do not accept offers under 32 bytes. 


/ 
if (offer) 
mss - min(mss, offer); 
mss - max(mss, 32); /* sanity */ 
if (mss < tp-»t maxseg |l offer !- 0) ( 
/* 


* If there's a pipesize, change the socket buffer 
* to that size. Make the socket buffers an integral 
* number of mss units; if the mss is larger than 
* the socket buffer, decrease the mss. 
*/ 
if ((bufsize = rt-»rt rmx.rmx sendpipe) -- O0) 
bufsize = so-»so snd.sb hiwat; 
if (bufsize « mss) 
mss - bufsize; 
else ( 
bufsize = roundup(bufsize, mss); 
if (bufsize » sb max) 
bufsize = sb max; 
(void) sbreserve(&so-»so snd, bufsize); 
) 


tp-»t maxseg - mss; 


if ((bufsize = rt-»rt rmx.rmx recvpipe) == 0) 
bufsize = so-»Sso rcv.sb hiwat; 
if (bufsize » mss) ( : 
bufsize = roundup(bufsize, mss): 
if (bufsize » sb max) 
bufsize - sb max; 
(void) sbreserve(&kso-»so rcv, bufsize); 
) 
} 
tp-»snd cwnd = mss; 
if (rt-»rt rmx.rmx ssthresh) { 
/* 
* There's some sort of gateway or interface 
* buffer limit on the path. Use this to set 
* the slow start threshhold, but set the 
* threshold to no less than 2*mss. 
*/ 
tp-»snd ssthresh = max(2 * mss, rt-»rt rmx.rmx ssthresh); 
) 


return (mss); 
tcp. input.c 
图 27-10 tcp mss: 结束 处 理 


1490 由 于 t_maxseg 已 小 于 默认 值 (512)， 或 者 由 于 收 到 了 对 端 发 送 的 MSS 选 项 ， 所 以 应 更 
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新 它 。 
1491-1499 对 接收 缓存 的 处 理 与 发 送 缓存 相同 。 

10. 初始 化 拥塞 窗口 和 慢 起 动 门限 
1500-1509 拥塞 窗口 的 值 ，snG_cwnd， 等 于 一 个 最 大 报 文 段 长 度 。 如 果 路 由 表 中 的 
rmx_ssthresh 非 零 ， 人 慢 起 动 门限 (snd_ssthresh) 初 始 化 为 该 值 ， 但 应 保证 其 下 限 为 两 个 
最 大 报 文 段 长 度 。 

1510 ”函数 最 后 返回 mss 。tcp_input 忽 略 这 一 返回 值 (图 28-10， 因 为 它 已 收 到 对 端的 MSS 
选项 )， 但 图 26-23 中 ，tcp_output 将 它 用 作 MSS 通 告 。 
举例 

下 面 通过 一 个 连接 建立 的 实例 说 明 tcp_mss 的 操作 过 程 。 连 接 建立 过 程 中 ， 它 会 被 调用 
两 次 : 发 送 SYN 时 和 收 到 对 端 带 有 MSS 选 项 的 SYN 时 。 

1) 创建 插口 ，tcp_newtcpcb 初 始 化 t_maxseg 为 512。 

2) 应 用 进程 调用 connect。 为 了 在 SYN 报 文 段 中 加 入 MSS 选 项 ，tcp_output 调 用 
tcp_mss， 参 数 offer 等 于 零 。 假 定 目的 卫 为 本 地 以 太 网 地 址 ，mbuf 徐 大 小 为 2048， 执 行 图 
27-9 中 的 代码 后 ，mss 等 于 1460。 由 于 of fer 等 于 零 ， 图 27-10 中 的 代码 不 修改 mss 值 ， 函 数 
返回 1460。 因 为 1460 大 于 默认 值 (512) 而 且 末 收 到 对 端的 MSS 选 项 ， 缓 存 大 小 不 变 。 
tcp_output 发 送 MSS 选 项 ， 通 告 MSS 大 小 为 1460。 

3) 对 端 发 送 响 应 SYN， 通 告 mss 大 小 为 1024。tcp_input 调 用 tcp_mss，、 参 数 offer 
等 于 1024。 图 27-9 的 代码 逻辑 仍旧 设 定 mss 为 1460， 但 在 图 27-10 起 始 处 的 min 语 句 将 mss 减 
小 为 1024。 因 为 offer 非 零 ， 缓 存 大 小 增加 至 最 近 的 1024 的 整数 倍 (等 于 8192)。t_maxseg 
更 新 为 1024。 

初 看 上 去 ，tcp_mss 的 逻辑 存在 问题 : TCP 向 对 端 通告 mss 大 小 为 1460， 之 后 从 

对 和 蒿 收 到 的 mss 只 有 1024。 尽 管 TCP 只 能 发 送 1024 字 节 的 报 文 段 ， 对 瑞 却 能 够 发 送 

1460 字 节 的 报 文 段 。 读 者 可 能 会 认为 发 送 缕 存 应 等 于 1024 的 倍数， 而 接收 缓存 则 应 

等 于 1460 的 倍数 。 但 图 27-10 中 的 代码 却 将 两 个 缓存 大 小 都 设 为 对 端 通告 的 mss 的 信 

数 。 这 是 因为 尽管 TCP 通 告 mss 为 1460， 但 对 端 通告 的 mss 仅 为 1024， 对 端 有 可 能 不 

会 发 送 1460 字 节 的 报 文 段 ， 而 将 发 送 报 文 段 限 制 为 1024 字 和 节 。 


27.6 tcp_ctlinput h% 


回想 图 22-32 中 ，tcp_ctlinput 处 理 5 种 类 型 的 ICMP 差 错 : 目的 地 不 可 达 、 数 据 报 参数 
错 、 源 站 抑制 、 数 据 报 超时 和 重 定 向 。 所 有 重 定向 差错 会 上 交 给 相应 的 TCP 或 UDP 进行 处 理 。 

对 于 其 他 4 种 差错 ， 仅 当 它 们 是 被 TCP 报 文 段 引 发 的 ， 才 会 调用 FEcp_ct1Linput 进 行 处 
理 。 

图 27-11 给 出 了 tcp_ctlinput 国 数 ， 它 与 图 23-30 的 udap_ct1input 国 数 类 似 。 

365-366 在 逻辑 上 ，tcp_ctlinput 与 uap_ctlinput 的 唯一 区 别 是 如 何 处 理 ICMP 源 站 
抑制 差错 。 因 为 inetct1lerrmap 等 于 0，UDP 忽 略 源 站 抑制 差错 。TCP 检 查 源 站 抑制 差错 ， 
并 把 notify 函 数 的 默认 值 tcp_notify 改 为 tcp_quench。 
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355 void tcp. subr.c 
356 tcp ctlinput(cmd, sa, ip) 
357 int cmd; 
358 struct sockaddr *sa; 
359 struct ip *ip; 
360 ( 
361 Struct tcphdr *th; 
362 extern struct in addr zeroin addr; 
363 extern u_char inetctlerrmap[]; 
364 void (*notify) (struct inpcb *, int) - tcp notify; 
365 if (cmd == PRC QUENCH) 
366 notify = tcp quench; 
367 else if (!PRC IS REDIRECT(cmd) && 
368 ((unsigned) cmd > PRC, NCMDS || inetctlerrmap[cmd] == 0)) 
369 return; : 
370 if (ip) ( 
371 th = (struct tcphdr *) ((caddr t) ip + (ip-»ip.hl << 2)); 
372 in pcbnotify(&tcb, sa, th-»th dport, ip-»ip src, th-»th sport, 
373 cmd, notify); 
374 ) else 
375 in pcbnotify(&tcb, sa, 0, zeroin addr, 0, cmd, notify): 
376 ) 
lcp. subr.c 





图 27-11 tcp ctlinputH A 


27.7 tcp notify 2 Zi 


tcb_notify 被 tcp_ctLinput 调 用 ， 处 理 且 的 地 不 可 达 、 数 据 报 参数 错 、 数 据 报 超时 
和 重 定向 差错 。 与 UDP 的 差错 处 理 函 数 相 比 ， 它 要 复杂 得 多 ， 因 为 TCP 必 须 灵 活 地 处 理 连 接 
上 收 到 的 各 种 软 差 错 。 图 27-12 给 出 了 tcp_motify 函 数 。 





328 void tcp_subr.c 
329 tcp notify(inp, error) 

330 struct inpcb *inp; 

331 int error; 

332 ( 

333 Struct tcpcb *tp - (struct tcpcb *) inp-»inp ppcb; 

334 struct socket *so = inp-»inp.socket; 

335 /* 

336 * Ignore some errors if we are hooked up. 

337 * If connection hasn't completed, has retransmitted several times, 
338 * and receives a second error, give up now. This is better 

339 * than waiting a long time to establish a connection that 

340 * can never complete. 

341 */ 

342 if (tp-»t state -- TCPS ESTABLISHED && 

343 (error -- EHOSTUNREACH || error -- ENETUNREACH || 

344 error -- EHOSTDOWN)) ( 

345 return; 

346 ) else if (tp-»-t state < TCPS ESTABLISHED && tp-»t rxtshift » 3 && 
347 tp-»t softerror) 

348 SO-»SO error = error; 


图 27-12 tcp_notify M% 
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349 else 

350 tp-»t softerror = error; 

351 wakeup((caddr, t) & so-»so, timeo); 
352 sorwakeup (so); 

353 sowwakeup (so); 

354 } 


tcp subr.c 
图 27-12 (2) 


328-345 如 果 连 接 状 态 为 ESTABLISHED， 则 忽略 EHOSTUNRERACH、ENETUNRERACH 和 
EHOSTDOWN 差 错 代 码 。 


处 理 这 3 个 差错 是 4.4BSD 中 新 增 的 功能 。Net/2 及 早期 版 本 在 连接 的 软 差 错 变 量 
(t_softerror) 中 记录 这 些 差错 ， 如 果 连 接 最 终 失 败 ， 则 向 应 用 进程 返回 相应 的 差 
错 码 。 回 想 一 下 。，tcp_xmit_timer 在 收 到 一 个 ACK， 确 认 林 发 送 过 的 报 文 段 时 ， 
复位 t_softerror 为 堆 。 


346-353 ”如 果 和 连接 还 未 建立 ， 而 且 TCP 已 经 至 少 4 次 重 传 了 当前 报 文 段 ，t_softerror 中 
已 存在 差错 记录 ， 则 最 新 的 差错 将 被 保存 在 插口 的 so_error 变 量 中 ， 从 而 应 用 进程 可 以 调 
用 select 对 插口 进行 读 写 。 如 果 上 述 条 件 不 满足 ， 当 前 差错 将 仍旧 保存 在 t_softerror 中 。 
我 们 在 tcp_drop 函 数 中 讨论 过 ， 如 果 连 按 最 终 由 于 超时 而 被 丢弃 ，t cp_drop 会 把 
t_softerror 赋 给 插口 差错 变量 errno。 任 何在 插口 上 等 待 接收 或 发 送 数 据 的 应 用 进程 会 
被 唤醒 ， 并 得 到 相应 的 差错 代码 。 


27.8 tcp quenche 


tcp_quench 的 函数 代码 在 图 27-13 中 给 出 。TCP 在 两 种 情况 下 调用 它 : 当 连 接 上 收 到 源 
站 抑制 差错 时 ， 由 上 cp_input 调 用 。 当 ip_output 返 回 ERNOBUFS 差 错 代 码 时 ， 由 
tp_output 调 用 。 


381 void icp-subr.c 
382 tcp quench(inp, errno) 
383 struct inpcb *inp; 
384 int errno; 
385 ( 
386 struct tcpcb *tp = intotcpcb(inp); 
387 if (tp) 
388 tp-»snd cwnd = tp-»t maxseg; 
389 } 
tcp subr.c 


图 27-13 tcp. quench ERE 


拥塞 窗口 设 定 为 最 大 报 文 段 长 度 ， 强 迫 TCP 执 行 慢 起 动 。 慢 起 动 门限 不 变 ( 与 
tcp_timers 处 理 重 传 超时 的 思想 相同 )， 因 此 ， 窗 口 大 小 将 成 指数 地 增加 ， 直 至 达到 
sndq_ssthresh 门 限 或 发 生 拥 塞 。 


27.9 TCP_REASS 宏 和 tcp_reass 函 数 


TCP 报 文 段 有 可 能 乱 序 到 达 ， 因 此 ， 在 数据 上 交 给 应 用 进程 之 前 ，TCP 必 须 设法 恢复 正确 
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的 报 文 段 次 序 。 例 如 ， 如 果 接收 方 的 接收 窗口 abu£() 
大 小 为 4096， 等 待 接收 的 下 一 个 序号 为 0。 收 EL 
到 的 第 一 个 报 文 段 携带 0 ~ 1023 字 节 的 数据 (次 rr ^ 


序 正确 )， 第 -个 报 文 段 携带 了 2048 ~ 3071F 
节 的 数据 ， 很 明显 ， 第 二 个 报 文 段 到 达 的 次 序 
差错 。 如 果 乱 序 报 文 段 位 于 接收 窗口 内 ，TCP 


MT DATA 
M PKTHDR 
44 













m pkthdr. len 


-m data | -m data | 
m type 
m flags 






URGERE. DEXDERU EE BH RERBA I Kt har revit pr 
d. AAT PER EHE X C 1024 ~ "I" 
2047 字 节 的 报 文 段 )。 这 一 节 我 们 将 讨论 处 理 

TCP 重 组 队列 的 代码 ， C EMR TED. ti ticnext jptr 





input 打 下 基础 。 [tirev jp | ipoviyt) 
如 果 假 定 某 个 mbuf 中 包含 IP 首 部 、TCP 首 ———1 oer 

部 和 4 字 节 的 用 户 数据 (回想 图 2-14 的 左 半 部 < 

分 )， 如 图 27-14 所 示 。 此 外 还 假定 数据 的 序号 7 | 

依次 为 7、8、9 和 10。 erm 
图 24-12 中 定义 的 Lcpiphar 结 构 里 包含 

了 ipovly 和 tcphdr 两 个 结构 ，tcphdr 结 构 rq 


在 图 24-12 中 给 出 。 图 27-14 只 列 出 了 与 重组 有 
关 的 一 些 变 量 : ti next. ti prev. 
ti len. ti aport 和 ti_seq。 头 两 个 指 
针 指 向 由 给 定 连 接 所 有 乱 序 报 文 段 组 成 的 双向 
链表 。 链 表 头 保存 在 连接 的 TCP 控 制 块 中 : 结 
构 的 头 两 个 成 员 变 量 为 seg_next 和 图 27-14 举例 : 带 有 4 字 节 数据 的 P 和 TCP 首 部 
seg_prev。ti_next 和 ti_prev 指 针 与 IP 首 部 的 头 8 个 字 节 重复 ， 只 要 数据 报到 达 了 TCP， 
就 不 再 需要 这 些 内 容 。ti_1en 等 于 TCP 数 据 的 长 度 ，TCP 计 算 检验 和 之 前 首先 计算 并 存储 这 
个 字段 。 


40 字 节 ( 未 用 ) 


27.9.1 TCP REASSZ 


tcp_input 收 到 数据 后 ， 就 调用 图 27-15 中 的 宏 TCP_REASS， 把 数据 放 入 连接 的 重组 队 
列 。TCP_REASS 只 在 一 种 情况 下 被 调用 : 参见 图 29-22。 
54-63 tp 是 指向 连接 TCP 控 制 块 的 指针 ，ti 是 指向 接收 报 文 段 的 L-cpiphdr 结 构 的 指针 。 
如 果 下 列 3 个 条 件 均 为 真 : 

D 报 文 段 到 达 次 序 正确 (序号 ti_seq 等 于 连接 上 等 待 接收 的 下 一 序号 ，rcv_nxt); 并 

且 

2) 连接 的 重组 队列 为 空 (seg_next 指 向 自己 ， 而 不 是 某 个 mbub; 并 且 

3) 连接 处 于 ESTABLISHED 状 态 。 
则 执行 下 列 步骤 : 设 定 延 迟 ACK 标 志 ; 更 新 rcv_nxt， 增 加 报 文 段 携带 的 数据 长 度 ， 如 果 报 
文 段 TCP 首 部 中 FIN 标 志 置 位 ， 则 £1ags 参 数 中 增加 TH_FIN 标 志 ; 更 新 两 个 统计 值 ; 数据 放 
入 插口 的 楼 收 缓存 ; 唤醒 所 有 在 插口 上 等 待 接收 的 应 用 进程 。 l 
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- - tcp input.c 
53 #define TCP, REASS(tp, ti, m, so, flags) ( \ 
54 if ((ti)-»ti.seq == (tp)-»rcv nxt && ^ 
55 (tp)-»seg next == (struct tcpiphdr *) (tp) && \ 
56 (tp)-»-t state == TCPS ESTABLISHED) í( \ 
57 tp-»t. flags |- TF. DELACK; \ 
58 (tp)-»rcv,.nxt += (ti)-»ti len; \ 
59 flags = (ti)-»ti flags & TH, FIN; \ 
60 tcpstat.tcps rcvpackes; \ 
61 tcpstat.tcps, rcvbyte += (ti)-»ti len; V 
62 sbappend(&(so)-»so rcv, (m)); \ 
63 sorwakeup(so); \ : 
64 } else ( \ 
65 (flags) = tcp reass((tp), (ti), (m); ^ 
66 tp-»t flags |= TF ACKNOW; \ | 
67 }\ 
68 } 


tcp_input.c 


图 27-15 TCP REASSZ:: 向 连接 的 重组 队列 中 添加 数据 


必须 满足 前 述 3 个 条 件 的 原因 是 : 首先 ， 如 果 数 据 次 序 差错 ， 则 必须 将 其 放 入 重组 队列 ， 

直至 收 到 了 中 间 缺 失 的 报 文 段 ， 才 能 把 数据 提交 给 应 用 进程 。 第 二 ， 即 使 当前 数据 到 达 次 序 
正确 ， 但 如 果 重 组 队列 中 已 存在 乱 序 数据 ， 则 新 的 数据 有 可 能 就 是 所 需 的 缺失 数据 ， 从 而 能 
够 向 应 用 进程 同时 提交 多 个 报 文 段 中 的 数据 ; 第 三 ， 尽 管 允许 请 求 建立 连接 的 SYN 报 文 段 中 
携带 数据 ， 但 这 些 数据 在 连接 进入 ESTABLISHED 状 态 之 前 ， 必 须 保 存在 重组 队列 中 ， 不 允许 
直接 提交 给 应 用 进程 。 
64-67 ”如 果 这 3 个 条 件 不 是 同时 满足 ， 则 TCP_REASS 宏 调用 TCP_REASS 函 数 ， 向 重组 队列 
中 添加 数据 。 由 于 收 到 的 报 文 段 如 果 不 是 乱 序 报 文 段 ， 就 有 可 能 是 所 需 的 缺失 报 文 段 ， 因 此 ， 
置 位 TF_AcCKNOW， 要 求 立即 发 送 ACK。TCP 的 一 个 重要 特性 是 收 到 乱 序 报 文 段 时 ， 必 须 立即 
发 送 ACK， 这 有 助 于 快速 重 传 算法 (29.4 节 ) 的 实现 。 

在 讨论 TCP_REASS 函 数 代 码 之 前 ， 需 要 先 了 解 图 27-14 中 TCP 首 部 的 两 个 端口 号 ， 
ti_sport 和 ti_dport， 所 起 的 作用 。 其 实 ， 只 要 找到 了 TCP 控 制 块 并 调用 了 TCP_REASS， 
就 不 再 需要 它们 了 。 因 此 ，TCP 报 文 段 放 入 重组 队列 时 ， 可 以 把 对 应 mbuf 的 地 址 存储 在 这 两 
个 端口 号 变量 中 。 对 于 图 27-14 中 的 报 文 段 ， 无 需 这 样 做 ， 因 为 IP 和 TCP 的 首部 都 存储 在 mbuf 
的 数据 部 分 ， 可 直接 使 用 atom 宏 。 但 我 们 在 2.6 节 讨论 m_pul1lup 时 曾 指 出 ， 如 果 于 和 TCP 的 
首部 保存 在 秘 中 (如 图 2-16 所 示 ， 对 于 最 大 长 度 报 文 这 是 很 正常 的 )，dtom 宏 将 无 法 使 用 。 我 
们 在 该 节 中 曾 提 到 ，TCP 把 从 TCP 首 部 指向 mbuf 的 后 向 指针 (back pointer) 存 储 在 TCP 的 两 个 端 
口号 字段 中 。 

图 27-16 举 例 说 明了 这 一 技术 的 用 法 ， 利 用 它 处 理 连 接 上 的 两 个 乱 序 报 文 股 ， 每 个 报 文 段 
都 存储 在 一 个 mbuf 负 中。 乱 序 报 文 段 双向 链表 的 表 头 是 连接 的 TCP 控 制 块 中 的 seg_next 成 
员 变 量 。 为 简化 起 见 ， 图 中 未 标 出 seg_prev 指 针 和 指向 链表 最 后 一 个 报 文 段 的 Fi_next 指 
针 。 

接收 窗口 等 待 接收 的 下 一 个 序号 为 Hzcv_nxt)， 但 我 们 假定 这 个 报 文 段 委 失 了 。 接 着 又 
收 到 了 两 个 报 文 段 ， 携 带 1461~4380 字 节 的 数据 ， 这 是 两 个 乱 序 报 文 段 。TCP 调 用 m_aevget 
把 它们 放 入 mbuf 簇 中 ， 如 图 2-16 所 示 。 
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tcpcb() 


rcv, nxt 















后 向 指针 。 


mbuf() 





m len 
m flags 一 









2048 1K 


1460 字 节 数 据 





548 字 节 ( 未 用 ) 





mbuf() 
NULL 
NULL 
m len 1500 
m type MT DATA 


m pkthdr.len 1500 


m pkthdr.rcvif |ptr 


m ext.ext free |NULL 
m ext.ext size|2048 


2048-58 


1460 ipoviyO 
Q0: 5) 
29 
tcphdr() 
(20 宇 节 ) 


1460 字 节 数 据 


548 字 节 (未 用 ) 


图 27-16 两 个 乱 序 TCP 报 文 段 存 储 在 mbuf 奥 中 
TCP 首 部 的 头 32 bit 存 储 指向 对 应 mbuf 的 指针 ， 下 面 介绍 的 TCP_REASS 函 数 将 用 到 这 个 


27.9.2 TCP_REASS 函 数 


图 27-17 给 出 了 TCP_REASS 函 数 的 第 一 部 分 。 参 数 包括 : tp， 指 向 TCP 控 制 块 的 指针 ; 
ti， 指 向 接收 报 文 段 IP 和 TCP 首 部 的 指针 ; m， 指 向 存储 接收 报 文 段 的 mbuf 链 表 的 指针 。 前 
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面 曾 提 到 过 ，ti 既 可 以 指向 由 m 所 指向 的 mbuf 的 数据 区 ， 也 可 以 指向 一 个 簇 。 








69 int tcp input.c 
70 tcp reass(tp, ti, m) 
71 struct tcpcb *tp; 
72 struct tcpiphdr *ti; 
73 struct mbuf *m; 
74 ( 
75 struct tcpiphdr *q; 
76 struct socket *so = tp-»t inpcb-»inp.socket; 
77 int flags; 
78 /* 
79 * Call with ti--0 after become established to 
80 * force pre-ESTABLISHED data up to user socket. 
81 */ 
82 if (ti == 0) 
83 goto present; 
84 /* 
85 * Find a segment that begins after this one does. 
86 */ 
87 for (q - tp-»seg next; q !- (struct tcpiphdr *) tp; 
88 q = (struct tcpiphdr *) q-»ti. next) 
89 if (SEQ GT(q-»ti seq, ti-»ti, seq)) 
90 break; . 
Icp. input.c 
图 27-17 TCP REASSIHUA: 第 一 部 分 
69-83 ”后 面 将 看 到 ，TCP 收 到 一 个 对 SYN 的 确认 时 ，tcp_input 将 调用 TCP_REASS， 并 


传递 一 个 空 的 Fi 指针 (图 28-20 和 图 29-2)。 这 意味 着 连接 已 建立 ， 可 以 把 SYN 报 文 段 中 携带 的 
数据 (TCP_REASS 已 将 其 放 人 重组 队列 ) 提 交 给 应 用 程序 。 连接 未 建立 之 前 ， 不 允许 这 样 做 。 


一 -人 u 


VC 


present” 位 于 图 27-23 中 。 


84-90 遍历 从 seg_next 开 始 的 乱 序 报 文 段 双向 链表 ， 寻 找 序号 大 于 接收 报 文 段 序号 
(ti_seq) 的 第 一 个 报 文 段 。 注 意 ，for 循 环 体 中 只 包含 一 个 if 语 句 。 

图 27-18 的 例子 中 ， 新 报 文 段 到 达 时 重组 队列 中 已 有 两 个 报 文 段 。 图 中 标 出 了 指针 g， 指 
向 链表 的 下 一 个 报 文 段 ， 带 有 字 节 10~15。 此 外 ， 图 中 还 标 出 了 两 个 指针 ti_next 和 
ti_prev， 起 始 序 号 (ti_seq)、 长 度 (ti_len) 和 数据 字 节 的 序号 。 由 于 这 些 报 文 段 较 小 ， 
每 个 报 文 段 很 可 能 存储 在 单一 的 mbuf 中 ， 如 图 27-14 所 示 。 






链表 中 的 前 
一 报 文 段 














图 27-18 存储 重复 报 文 段 的 重组 队列 举例 
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图 27-19 给 出 了 TCP_REASS 下 一 部 分 的 代码 


91 7. tcp input.c 
92 * If there is a preceding segment, it may provide some of 
93 * our data already. If so, drop the data from the incoming 
94 * segment. If it provides all of our data, drop us. 
95 */ 
96 if ((struct tcpiphdr *) q-»ti prev != (struct tcpiphdr *) tp) ( 
97 int i; 
98 q = (struct tcpiphdr *) q->ti_prev; 
99 /* conversion to int (in i) handles seq wraparound */ 
100 i = q->ti_seq + q-»ti len - ti-»ti seq; 
101 if (i > 0) { 
102 if (i >= ti-»ti len) { 
103 tcpstat.tcps rcvduppacks*; 
104 tcpstat.tcps rcvdupbyte += ti-»ti len; 
105 m freem(í(m); 
106 return (0); 
107 } 
108 m, adj (m, i); 
109 ti-»ti len -- i; 
110 ti-»ti seq += i; 
111 } 
112 G = (struct tcpiphdr *) (q-»ti next); 
113 H 
114 tcpstat.tcps rcvoopack-4*; 
115 tcpstat.tcps rcvoobyte += ti-»ti len; 
116 REASS MBUF(ti) = m; /* XXX */ . 
tcp. input.c 


图 27-19 TCP_REASS 国 数 : 第 二 部 分 


91-107 ”如 果 双 向 链表 中 a 指向 的 报 文 段 前 还 存在 报 文 股 ， 则 该 报 文身 有 可 能 与 新 报 文 段 重 
复 ， 因 此 ， 挪 动 指针 ga， 令 其 指向 a 的 前 一 个 报 文 段 (图 27-18 中 携带 字 节 4~8 的 报 文 段 )， 计 算 
重复 的 字 节 数 ， 并 存储 在 变量 i 中 : 


q-»ti seq + q-»ti. len - ti-»ti seq; 
4.45 -7 
2 


如 果 i 大 于 0， 则 链表 中 原 有 报 文 段 与 新 报 文 段 携带 的 数据 间 存 在 重复 ， 如 例子 中 给 出 的 
报 文 段 。 如 果 重 复 的 字 节 数 (i) 大 于 或 等 于 新 报 文 段 的 大 小 ， 即 新 报 文 段 中 所 有 的 数据 都 已 包 
含 在 原 有 报 文 段 中 ， 新 报 文 段 是 重复 报 文 段 ， 应 予以 丢弃 。 
108-112 ”如 果 只 有 部 分 数据 重复 (如 图 27-18 所 示 )，m_adj 丢 弃 新 报 文 自 起 始 i 字 节 的 数据 ， 
并 相应 更 新 新 报 文 段 的 序号 和 长 度 。 挪 动 a 指针， 指向 链表 中 的 下 一 个 报 文身 。 图 27-20 给 
了 图 27-18 中 各 报 文 段 和 变量 此 时 的 状态 。 
116 ”mbuf 的 地 址 m 存 储 在 TCP 首 部 的 源 端口 号 和 目的 端口 号 中 ， 也 就 是 我 们 在 本 节 前 面 曾 提 
到 的 后 向 指针 ， 防 止 TCP 首 部 被 存放 在 mbuf 答 中 ， 而 无 法 使 用 atom 宏 。 宏 RERASS_MBUF 定 义 
为 : 

&define REASS MBUF(ti) (*(struct mbuf **)&((ti)-»ti t)) 

ti _t 是 一 个 cphar 结 构 ( 图 24-12)， 最 初 的 两 个 成 员 变量 是 两 个 16bit 的 端口 号 。 请 注意 
图 27-19 中 的 注释 “XXX”， 其 中 隐 含 了 这 样 一 个 假定 ， 指 针 能 够 存放 在 两 个 端口 号 占用 的 32 
bit 空 间 中 。 
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eid 
一 报 文 自 


ti seq-4 


ti—e[ ti next | ci prev 


G 








ti next 





ti seq -10 





图 27-20 删除 新 报 文 段 中 的 字 节 7 和 8 后 ， 更 新 图 27-18 


图 27-21 给 出 了 tcp_reass 的 第 三 部 分 ， 删 除 重组 队列 下 一 报 文 段 中 可 能 的 重复 字 节 。 
117-135 如 果 还 有 后 续 报 文 段 ， 则 计算 新 报 文 段 与 下 一 报 文 段 间 重 复 的 字 节 数 ， 并 存储 在 
变量 i 中 。 还 是 以 图 27-18 中 的 报 文 段 为 例 ， 得 到 : 


1 


9+2-1 
1 


0 


因为 序号 10 的 字 节 同时 存在 于 两 个 报 文 段 中 。 

根据 i 值 的 大 小 ， 有 可 能 出 现 3 种 情况 : 

D 如 果 i 小 于 等 于 0， 无 重复 。 

2) 如 果 i 小 于 下 一 报 文 段 的 字 节 数 (q->ti_len)， 则 有 部 分 重复 ， 调 用 m_adj， 从 该 报 
文 段 中 丢弃 起 始 的 i 字 节 。 

3) 如 果 i 大 于 等 于 下 一 报 文 段 的 字 节 数 ， 则 出 现 完全 重复 ， 从 链表 中 删除 该 报 文 段 。 
136-139 代码 最 后 调用 insque， 把 新 报 文 段 插入 连接 的 重组 双向 链表 中 。 图 27-22 给 出 了 
图 27-18 中 各 报 文 段 和 变量 此 时 的 状态 。 


117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 


/* 
* Whi 
* if 
*/ 
while 
in 
if 


if 


) 
q 
m 
r 


tcp_input.c 


le we overlap succeeding segments trim them or, 


they are completely covered, dequeue them. 

(q != (struct tcpiphdr *) tp) ( 

t i = (ti-»ti seq + ti-»ti len) - q-»ti seq; 
(i <= 0) . 
break; 


(i < q-»ti len) ( 
q-»ti seq += i; 


q-»ti len -= i; 
m adj (REASS MBUF(q), i): 
break; 


= (struct tcpiphdr *) q-»ti next; 
= REASS MBUF((struct tcpiphdr *) q-»ti prev); 


emque(q-»ti prev); 


图 27-21 TCP_REASS 函 数 : 第 三 部 分 


134 
135 


136 
137 
138 
139 










140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 
164 
165 ) 





m freem(m); 


) 


/* 
* Stick new segment in its place. 
*/ 


insque(ti, g-»ti prev); 


图 27-21 





ti next 
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tcp. input.c 


( 续 ) 











ti seq-ll 





图 27-22 丢弃 所 有 重复 字 节 后 ， 更 新 图 27-20 
图 27-23 给 出 了 tcp_reass 最 后 一 部 分 的 代码 ， 如 果 可 能 ， 向 应 用 进程 递交 数据 。 


present: 
/* 
* Present data to user, 
* completed sequence space. 
*/ 


tcp_input.c 


advancing rcv_nxt through 


if (TCPS, HAVERCVDSYN (tp-»t. state) == 0) 
return (0); 
ti = tp-»seg next; 
if (ti == (struct tcpiphdr *) tp I| ti-»ti seq !- tp-»rcv nxt) 
return (0); 
if (tp-»t state == TCPS SYN RECEIVED k& ti-»ti, len) 
return (0); 
do ( 
tp-»rcv nxt += ti-»ti len; 
flags = ti-»ti flags & TH FIN; 
remque (ti); 
m = REASS, MBUF (ti); 
ti - (struct tcpiphdr *) ti-»ti next; 
if (so-»so state & SS, CANTRCVMORE) 
m freem(ím); 
else 
sbappend(&so-»so, rcv, m); 
) while (ti !- (struct tcpiphdr *) tp && ti-»ti seq == tp-»rcv nxt); 


sorwakeup (so); 
return (flags); 


tcp. input.c 


图 27-23 tcp_reass 消 数 : 第 四 部 分 
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145-146 ”如 果 连 接 还 没有 收 到 SYN( 连 接 处 于 LISTEN 状 态 或 SYN_SENT 状 态 )， 不 允许 向 应 
用 进程 提交 数据 ， 函 数 返 回 。 当 函数 被 宏 TCP_REASS 调 用 时 ， 返 回 值 0 被 赋 给 宏 的 参数 
fl1ags。 这 种 做 法 带 来 的 副作用 是 可 能 会 清除 FIN 标 志 。 当 宏 TCP_REASS 被 图 29-22 的 代码 调 
用 时 ， 如 果 接 收报 文 段 包含 了 SYN、FIN 和 数据 (尽管 不 常见 ， 但 却 是 有 效 的 报 文 段 )， 会 出 现 
这 种 情况 。 
147-149 ti 设 定 为 链表 的 第 一 个 报 文庙 。 如 果 链 表 为 空 ， 或 者 第 一 个 报 文 段 的 起 始 序 号 
(ti~>ti_seqg) 不 等 于 连接 等 待 接收 的 下 一 序号 (rcv_nxt)， 则 函数 返回 9。 如 果 第 二 个 条 件 
为 真 ， 说 明 在 等 待 接收 的 下 一 序号 与 已 收 到 的 数据 之 间 仍 然 存 在 缺失 报 文 段 。 例 如 ， 图 27-22 
中 ， 如 果 携 带 4 ~ 8 字 节 的 报 文 段 是 链表 的 起 始 报 文 段 ， 但 rcv_nxt 等 于 2， 字 节 2 和 3 仍旧 缺 
失 ， 因 此 ， 不 能 把 4 ~ 15 字 节 提 交 给 应 用 进程 。 返 回 值 0 将 清除 FIN 标 志 (如 果 该 标志 设 定 )， 这 
是 因为 还 有 未 收 人 到 的 数据 ， 所 以 暂时 不 能 处 理 FIN。 
150-151 ”如 果 连 接 处 于 SYN_RCVD 状 态 ， 且 报 文 段 长 度 非 零 ， 则 函数 返回 9。 如 果 两 个 条 
件 均 为 真 ， 说 明 揪 口 在 监听 过 程 中 收 到 了 携带 数据 的 SYN 报 文 段 。 数 据 将 保存 在 连接 队列 中 ， 
等 待 三 次 握手 过 程 结束 。 
152-164 循环 从 链表 的 第 一 个 报 文 段 开始 (从 前 面 的 测试 条 件 可 知 ， 它 携带 数据 的 次 序 已 经 
正确 )， 把 数据 放 入 插口 的 接收 缓存 ， 并 更 新 rcv_nxt 。 当 链表 为 空 ， 或 者 链表 下 一 报 文 段 的 
序号 又 出 现 差 错 ， 即 当前 处 理 报 文 段 与 下 一 报 文 段 间 存在 缺失 报 文 段 时 ， 循 环 结束 。 此 时 ， 
flags 变 量 (函数 的 返回 值 ) 等 于 0 或 者 为 TH_FIN， 取 决 于 放 入 插口 接收 缓存 的 最 后 一 个 报 文 
段 中 是 否 带 有 FIN 标 志 。 

在 所 有 mbuf 都 放 入 插口 的 接收 缓存 后 ，sorwakeup 唤 醒 所 有 在 插口 上 等 待 接收 数据 的 应 
用 进程 。 


27.10 tcp_trace 函 数 
图 26-32 中 ， 在 向 下 递交 报 文 段 之 前 ， tcp. output]AH f tcp. tracer E: 


if (so-»so options & SO DEBUG) 
tcp trace(TA OUTPUT, tp-»t state, tp, ti, 0); 


在 内 核 的 环形 缓存 中 添加 一 条 记录 ， 这 些 记录 可 通过 trpt (8) 程 序 读 取 。 此 外 ， 如 果 内 核 
编译 时 定义 了 符号 TCPDEBUG， 并 且 变 量 tcpconsdebug 非 零 ， 则 信息 将 输出 到 系统 控制 台 。 
任何 进程 都 可 以 设 定 TCP 的 插口 选项 SO_DEBUG， 要 求 TCP 把 信息 存储 到 内 核 的 
环形 缓存 中 。 但 只 有 特权 进程 或 系统 管理 员 才 能 运行 Lrpt， 因 为 它 必须 读 取 系统 内 
存 才 能 获取 这 些 信息 。 
尽管 可 以 为 任何 类 型 的 播 口 设 定 SO_DUBUG 选 项 (如 UDP 或 原始 IP)， 但 只 有 TCP 
TEREE. 
这 些 信息 被 保存 在 cp_debug 结 构 中 ， 如 图 27-24 所 示 。 
35-43 tcp_debug 很 大 (196 字 节 )， 因 为 它 包含 了 其 他 两 个 结构 : 保存 IP 和 TCP 首 部 的 
tcpiphdr 和 完整 的 TCP 控 制 块 tcpcb。 由 于 保存 了 TCP 控 制 块 ， 其 中 的 任何 变量 都 可 通过 
trpt 打 印 出 来 。 也 就 是 说 ， 如 果 trpt 标 准 输 出 中 没有 包含 读者 感 兴趣 的 信息 ， 可 修改 源 代 
码 以 打印 控制 块 中 任何 想 要 的 信息 (Net/3 版 支持 这 种 修改 )。 图 25-28 中 的 RTT 变 量 就 是 通过 这 
种 方式 得 到 的 。 . 
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35 struct tcp debug ( tcp debug. h 
36 n time td time; /* iptime(): ms since midnight, UTC */ 
37 short td act; /* TA xxx value (Figure 27.25) */ 
38 short td ostate; /* old state */ 
39 caddr t td tcb; /* addr of TCP connection block */ 
40 struct tcpiphdr td ti; /* IP and TCP headers */ 
41 short td req; /* PRU xxx value for TA USER */ 
42 struct tcpcb td cb; /* TCP connection block */ 
43 ); 
53 #define TCP, NDEBUG 100 
54 struct tcp debug tcp debug(TCP, NDEBUG]; 
55 int tcp debx; 
tcp debug.h 


图 27-24 tcp_debug 结 构 


53-55 图 27-24 还 定义 了 数组 tcp_debug， 也 就 是 前 面 提 到 的 环形 缓存 。 数 组 指针 
(tcp_debx) 初 始 化 为 零 ， 该 数组 约 占 20 000 字 节 。 

内 核 只 调用 了 tcp_trace 4 次 ， 每 次 调用 都 会 在 结构 的 td_act 变 量 中 存 和 人 一 个 不 同 的 
值 ， 如 图 27-25 所 示 。 


TA_DROP 当 输 入 报 文 段 被 天 弃 时 ， 被 Lcp_input 调 用 图 29-27 


TA_INPUT 输入 处 理 完 毕 后 ， 调 用 kcp_output 之 前 图 29-26 
TA OUTPUT 调用 ip_output 发 送 报 文 段 之 前 图 26-32 
TA USER RPU_xxx 请 求 处 理 完 毕 后 ， 被 tcp_usrreq 调 用 图 30-1 





图 27-25 tqd_act 值 及 相应 的 tcp_trace 调 用 


图 27-26 给 出 了 tcp_trace 国 数 的 主要 部 分 ， 我 们 忽略 了 直接 输出 到 控制 台 的 那 部 分 代 
码 。 
48-133 在 图 数 被 调用 时 ，ostate 中 保存 了 连接 的 前 一 个 状态 ， 与 连接 的 当前 状态 (保存 在 
控制 块 中 ) 相 比较 ， 可 了 解 连接 的 状态 变迁 状况 。 图 27-25 中 ，TRA_OUTPUT 不 改变 连接 状态 ， 
但 其 他 3 个 调用 则 会 导致 状态 的 转移 。 


48 void Icp- debug.c 
49 tcp. trace(act, ostate, tp, ti, req) 

50 short act, ostate; 

51 struct tcpcb *tp; 

52 struct tcpiphdr *ti; 


53 int req; 

54 ( 

55 tcp seq seq, ack; 

56 int len, flags; 

57 struct tcp debug *td = &tcp debug[tcp debx-4]; 

58 if (tcp. debx == TCP NDEBUG) 

59 tcp debx - 0; /* circle back to start */ 
60 td-»td time = iptime(); 

61 td-»td act = act; 


图 27-26 tcp trace TEPNERBUSIIESEUE PRF 
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62 td-»td ostate - ostate; 

63 td-»td tcb = (caddr t) tp; 

64 if (tp) 

65 td-»td cb = *tp; /* structure assignment */ 
66 else 

67 bzero((caddr t) & td-»td cb, sizeof(*tp)); 

68 if (ti) 

69 td--td ti = *ti; /* structure assignment */ 
70 else 

71 bzero((caddr t) & td-»td ti, sizeof(*ti)); 

72 td-»td req = req; 

73 #ifdef TCPDEBUG 

74 if (tcpconsdebug == 0) 

75 return; 





/* output information. on epsscle s 


132 fendif 


133 ) 
tcp debug.c 





图 27-26 (4) 


输出 举例 


图 27-27 列 出 了 tcpdump 输 出 的 前 4 行 ， 反 映 25.12 节 例子 中 的 三 次 握手 过 程 和 发 送 的 第 一 
个 数据 报 文 段 ( 卷 1 附录 A 提 供 了 tcpdump 输 出 格式 的 细节 )。 


1 0.0 bsdi.1025 » vangogh.discard: S 20288001:20288001(0) 
win 4096 «mss 512» 

2 0.362719 (0.3627) vangogh.discard » bsdi.1025: S 3202722817:3202722817(0) 
ack 20288002 win 8192 
«mss 512» 

3 0.364316 (0.0016) bsdi.1025 » vangogh.discard: . ack 1 win 4096 

4 0.415859 (0.0515) bsdi.1025 » vangogh.discard: . 1:513(512) ack 1 win 4096 


图 27-27 反映 图 25-28 实 例 的 tcpdump 输 出 


图 27-28 列 出 了 与 之 对 应 的 trpt 的 输出 。 

图 27-28 的 输出 与 正常 的 trpt 输 出 相 比 略 有 一 些 不 同 : 32 bit 的 数字 序号 显示 为 
无 符号 整数 (trpt 将 其 差错 地 打印 为 有 符号 整数 );， 有些 trpt 按 16 进 制 输出 的 值 被 改 
为 10 进 制 ; 为 了 编制 图 25-28， 作 者 人 为 地 把 从 t_rtt 到 t_rxtcur 的 值 加 入 到 trpt 
中 。 


953738 SYN SENT: output 20288001:20288005(4) 80 (win-4096) 
«SYN» -> SYN, SENT 
rcv nxt 0, rcv wnd 0 
snd una 20288001, snd nxt 20288002, snd max 20288002 
snd wll 0, snd w12 0, snd wnd 0 
REXMT-12 (t rxtshift-0), KEEP-150 


图 27-28 反映 图 25-28 实 例 的 trpt 输 出 
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t_rtt=1, t_srtt=0, t_rttvar=24, t_rxtcur=12 


953739 CLOSED: user CONNECT -> SYN_SENT 
rcv nxt 0, rcv wnd 0 
snd_una 20288001, snd_nxt 20288002, snd_max 20288002 
snd_wl1 0, snd wl2 0, snd wnd 0 
REXMT-12 (t rxtshift-0), KEEP-150 
t rtt-1, t srtt-0, t rttvar-24, t rxtcur-12 


954103 SYN SENT: input 3202722817:3202722817(0) 820288002 (win=8192) 
«SYN,ACK» -» ESTABLISHED 
rcv nxt 3202722818, rcv wnd 4096 
snd una 20288002, snd nxt 20288002, snd max 20288002 
snd wll 3202722818, snd .wl2 20288002, snd wnd 8192 
KEEP-14400 
t rttz0, t srtt-16, t rttvar-4, t rxtcur-6 


954103 ESTABLISHED: output 20288002:20288002(0) €3202722818 (winz4096) 
«ACK» -» ESTABLISHED 
rcv nxt 3202722818, rcv wnd 4096 
snd una 20288002, snd nxt 20288002, snd max 20288002 
snd wli 3202722818, snd w12 20288002, snd wnd 8192 
KEEP-14400 
t rtt-z0, t srtt-16, t rttvar-4, t rxtcur-6 


954153 ESTABLISHED: output 20288002:20288514(512) 83202722818 (win=4096) 
«ACK» -> ESTABLISHED 
rcv nxt 3202722818, rcv wnd 4096 
snd una 20288002, snd nxt 20288514, snd max 20288514 
snd wlli 3202722818, snd wl2 20288002, snd wnd 8192 
REXMT-6 (t rxtshift-0), KEEP-14400 
t rtt-1, t srtt-16, t rttvar-4, t rxtcur-6 
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在 时 刻 953 738， 发 送 SYN。 注 意 ， 代 码 中 的 时 间 变 量 有 8 位 数字 ， 以 毫秒 为 单位 ， 这 里 
只 输出 了 低 6 位 。 输 出 的 结束 序号 (20 288 005) 是 差错 的 。SYN 中 确实 携带 了 4 字 节 的 内 容 ， 但 
并 非 数 据 ， 而 是 MSS 选 项 。 重 传 定时 器 设 定 为 6 秒 (REXMT)， 保 活 定时 器 为 75 秒 (KEEP)， 这 些 
定时 器 值 均 以 500 ms 滴答 为 单位 。t_rtt 等 于 1， 意 味 对 该 报 文 段 计时 ， 测 量 RTT 样 本 值 。 

发 送 SYN 是 为 了 响应 应 用 进程 的 connect 调 用 。 一 毫秒 后 ， 这 次 系统 调用 的 信息 被 写 入 
内 核 的 环形 缓存 。 尽 管 是 因为 应 用 进程 调用 了 connect， 才 导致 发 送 SYN 报 文 段 ， 但 TCP 在 
处 理 完 PRU_CONNECT 请 求 后 ， 才 调用 tcp_trace， 环 形 缓存 中 实际 写 入 了 两 条 记录 。 此 外 ， 
应 用 进程 调用 connect 时 ， 连 接 状 态 为 CLOSED， 发 送 完 SYN 后 ， 状 态 变迁 至 SYN_SENT,， 
这 也 是 两 条 记录 仅 有 的 不 同 之 处 。 

第 三 条 记录 ， 时 刻 954 103， 与 第 一 条 记录 相隔 365 ms (tcpdump 显 示 时 间 差 为 362.7ms)， 
即 为 图 25-28 中 “实际 时 间 差 (ms)” 一 栏 的 填充 值 。 收 到 带 有 SYN 和 ACK 的 报 文 段 后， 连接 状 
态 从 SYN_SENT 转 移 到 ESTABLISHED。 因 为 计时 报 文 段 已 得 到 确认 ， 更 新 RTT 估 计 器 值 。 

第 四 条 记录 反映 了 三 次 握手 过 程 中 的 第 三 个 报 文 段 : 确认 对 端的 SYN。 因 为 是 纯 ACK 报 
文 段 ， 不 用 对 它 计 时 (rtt 等 于 0)， 它 在 时 刻 954 103 被 发 送 。connect 系 统 调用 返回 ， 应 用 进 
程 接 着 调用 write 发 送 数据 ， 产 生 TCP 输 出 。 

第 五 条 记录 反映 了 这 个 数据 报 文 段 ， 在 时 刻 954 153， 三 次 握手 结束 后 50 ms， 被 发 送 。 它 
携带 50 字 节 的 数据 ， 起 始 序号 为 20 288 002。 重 传 定时 器 设 为 3 秒 ， 需 要 计时 。 

应 用 进程 继续 调用 write 发 送 数据 。 尽 管 不 再 显示 更 多 记录 ， 但 很 明显 ， 接 下 来 的 3 条 记 
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录 也 都 是 在 TCP 处 理 完 PRU_SEND 请 求 后 写 入 环形 缓存 的 。 第 一 次 PRU_SEND 请 求 ， 生 成 我 们 
已 看 到 的 第 一 个 512 字 节 的 输出 报 文 段 ， 其 他 3 次 请 求 不 会 引发 TCP 输 出 报 文 段 ， 此 时 连接 正 
处 于 慢 起 动 状态 。 只 生成 4 条 记录 是 因为 ， 图 25-28 的 例子 中 的 TCP 发 送 缓存 大 小 只 有 4096， 
mbuf 秒 大 小 为 1024。 一 旦 发 送 缓存 被 占 满 ， 应 用 进程 就 进入 休眠 状态 。 


27.11 小 结 


本 章 介 绍 了 各 种 TCP 函 数 ， 为 后 续 章 节 打 下 基础 。 

TCP 连 接 正 常 关闭 时 ， 向 对 端 发 送 FIN， 并 等 待 4 次 报 文 交换 过 程 结束 。 它 被 丢弃 时 ， 只 
需 发 送 RST。 

路 由 表 中 的 每 条 记录 都 包含 8 个 变量 ， 其 中 有 3 个 在 连接 关闭 时 更 新 ， 有 6 个 用 于 新 连接 的 
建立 ， 从 而 内 核能 够 跟踪 与 同一 目标 之 间 建 立 的 正常 连接 的 某 些 特性 ， 如 RTT 估 计 器 值 和 慢 
起 动 门限 。 系 统管 理 员 可 以 设置 或 锁定 部 分 变量 ， 如 MTU 、 接 收 管道 大 小 和 发 送 管道 大 小 ， 
这 些 特性 会 影响 到 达 该 目标 的 连接 的 性 能 。 

TCP 对 收 到 的 ICMP 差 错 有 一 定 的 容错 性 
ICMP 差 错 的 方式 与 早期 的 Berkeley 版 本 不 同 。 

TCP 报 文 段 可 能 乱 序 到 达 ， 并 包含 重复 数据 ，TCP 必 须 处 理 这 些 异 常 现象 。TCP 为 每 条 连 
接 维护 一 个 重组 队列 ， 保 存 乱 序 报 文 段 ， 处 理 之 后 再 提交 给 应 用 进程 。 

最 后 介绍 了 选 定 插口 选项 SO_DEBUG 时 ， 内 核 中 保存 的 信息 。 除 某 些 程序 如 tcpdump 之 
外 ， 这 些 内 容 也 是 很 有 用 的 调试 工具 。 
习题 

27.1 为 什么 图 27-1 中 最 后 一 行 的 erzno 等 于 0? 

27.2 rmx_rtt 中 存储 的 最 大 值 是 多 少 ? 

27.3 为 了 保存 某 个 给 定 主机 的 路 由 信息 (图 27-3)， 我 们 用 手工 在 本 地 的 路 由 表 中 添加 一 

条 到 达 该 主机 的 路 由 。 之 后 ， 运 行 FTP 客 户 程序 ， 向 这 人 台 主 机 发 送 足够 多 的 数据 ， 
如 图 27-4 所 要 求 的 。 但 终止 FTP 客 户 程 序 后 ， 检 查 路 由 表 ， 到 达 该 主机 的 所 有 变量 
依旧 为 0。 出 了 什么 问题 ? 





不 会 导致 TCP 终 止 已 建立 的 连接 。Net3 处 理 


第 28 章 TCP 的 输入 


TCP 输 入 处 理 是 系统 中 最 长 的 一 部 分 代码 ， 函 数 tcp_input 约 有 1100 行 代码 。 输 入 报 文 
段 的 处 理 并 不 复杂 ， 但 非常 繁琐 。 许 多 实现 ， 包 括 NeV3， 都 完全 遵循 RFC 793 中 定义 的 输入 
事件 处 理 步 综 ， 它 详细 定义 了 如 何 根 据 连 接 的 当前 状态 ， 处 理 不 同 的 输入 报 文 段 。 

当 收 到 的 数据 报 的 协议 字段 指明 这 是 一 个 TCP 报 文 段 时 ，ipintr( 通 过 协议 转换 表 中 的 
pr_input 的 数 ) 会 调用 cp_input 进 行 处 理 。tcp_input 在 软件 中 断 一 级 执行 。 

函数 非常 长 ， 我 们 将 分 两 章 讨论 。 图 28-1 列 出 了 tcp_input 中 的 处 理 框架 。 本 章 将 结束 
对 RST 报 文 段 处 理 的 讲解 ， 从 下 一 章 开 始 介绍 ACK 报 文 段 的 处 理 。 

头 几 个 步骤 是 非常 典型 的 : 对 输入 报 文 段 做 有 效 性 验证 (检验 和 、 长 度 等 )， 以 及 寻找 连接 
的 PCB 。 尽 管 后 面 还 有 大 量 代码 ， 但 通过 “首部 预测 (header prediction)”(28.4 节 )， 算 法 却 有 
可 能 完全 跳 过 后 续 的 逻辑 。 首 部 预测 算法 是 基于 这 样 的 假定 : 一 般 情况 下 ， 报 文 段 既 不 会 丢 
失 ， 次 序 也 不 会 错误 ， 因 此 ， 对 于 给 定 连接 ，TCP 总 能 猜 到 下 一 个 接收 报 文 段 的 内 容 。 如 果 
算法 起 作用 ， 函 数 直 接 返 回 ， 这 是 tcp_input 中 最 快 的 一 条 执行 路 径 。 

如 果 算 法 不 起 作用 ， 函 数 在 “dodata” 处 结束 ,测试 几 个 标志 ， 并 且 若 需要 对 接收 报 文 段 
作出 响应 ， 则 调用 tcp_output。 





void 
tcp_input{) 
í 
checksum TCP header and data; 
findpcb: 
locate PCB for segment; 
if (not found) 
goto dropwithreset; 
reset idle time to 0 and keepalive timer to 2 hours; 
process options if not LISTEN state; 


if (packet matched by header prediction) { 
completely process received segment; 
return; 


J 


switch (tp-»t state) ( 

case TCPS LISTEN: 
if SYN flag set, accept new connection request; 
goto trimthenstepó; 


case TCPS SYN,.SENT: 
if ACK of our SYN, connection completed; 
trimthenstep6: 
trim any data not within window; 


图 28-1 TCP 输 入 处 理 步骤 小 结 
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goto stepó; 
} 


process RFC 1323 timestamp; 
check if some data bytes are within the receive window; 


trim data segment to fit within window; 


if (RST flag set) { 
process depending on state; 
goto drop; 
} /* Chapter 28 finishes here */ 


if (ACK flag set] 
if (SYN RCVD state) 
simultaneous open complete; 
if (duplicate ACK) 
fast recovery algorithm; 
update RTT estimators if segment timed; 
open congestion window; 


remove ACKed data from send buffer; 
change state if in FIN WAIT 1, CLOSING, or LAST ACK state; 


t /* Chapter 29 starts here */ 


} 


stepó: 
update window information; 


process URG flag; 


dodata: 
process data in segment, add to reassembly queue; 


if (FIN flag is set) 


process depending on state; 


if (SO DEBUG socket option) 
tcp trace(TA INPUT); 


if (need output || ACK now) 
tcp.outputí); 
return; 


dropafterack: 
tcp.output() to generate ACK; 


return; 


dropwithreset: 
tcp respond() to generate RST; 


return; 
drop: 
if (SO DEBUG socket option) 
tcp trace(TA DROP); 
return; 


} 
L o u aa 
图 28-1 (£5) 

函数 结尾 处 有 3 个 标注 ， 处 理 出 现 差错 时 控制 会 跳 转 到 这 些 地 方 : dropafterack, 
dropwithreset 和 drop。 标 注 中 出 现 的 “drop” 指 丢弃 当前 处 理 的 报 文 段 ， 而 非 丢 弃 连 
接 。 不 过 ， 当 控制 跳 转 到 dropwithreset 时 ， 将 发 送 RST， 从 而 丢弃 连接 。 

函数 仅 有 的 另 一 个 分 支 是 首部 预测 算法 后 的 switch 语 名， 如 果 连 接 处 于 LISTEN 或 
sYN_SENT 状 态 时 收 到 了 一 个 有 效 的 SYN 报 文 段 ， 它 负责 分 别 进行 处 理 。trimthenstepe 
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处 的 代码 结束 后 ， 跳 转 到 step 65， 继续 执行 正常 的 流程 。 
28.2 MAE 


图 28-2 的 代码 包含 一 些 声明 ， 并 对 收 到 的 TCP 报 文 段 进行 预 处 理 。 

1. 从 第 一 个 mbuf 中 获取 IP 和 TCP 首 部 
170-204 参数 jphlen 等 于 下 首部 长 度 ， 包 括 可 能 的 耻 选 项 。 如 果 长 度 大 于 20 字 节 ， 可 知 存 
在 IP 选 项 ， 调 用 ip_stripoptions 于 弃 这 些 选 项 。TCP 名 上 略 除 源 选 路 之 外 的 所 有 IP 选 项 ， 
源 选 路 选项 由 IP 特 别 保存 (9.6 节 )，TCP 能 够 读 取 其 内 容 ( 图 28-7)。 如 果 敌 中 第 一 个 mbuf 的 容 
量 小 于 IP/TCP 首 部 大 小 (40 字 节 )， 则 调用 m_pullup， 试 着 把 最 初 的 40 字 节 移 入 第 一 个 
mbuf 中 。 


170 void tcp_input.c 
171 tcp input(m, iphlen) 

172 struct mbuf *m; 

173 int iphlen; 

174 ( 

175 struct tcpiphdr *ti; 

176 struct inpcb *inp; 

177 caddr t optp - NULL; 

178 int optlen; 

179 int len, tlen, off; 

180 struct tcpcb *tp = 0; 

181 int tiflags; 

182 Struct socket *so; 

183 int todrop, acked, ourfinisacked, needoutput = 0; 
184 short ostate; 

185 struct in_addr laddr; 

186 int dropsocket = 0; 

187 int iss - 0; 

188 u long tiwin, ts val, ts, ecr; 

189 int ts present = 0; 

190 tcpstat.tcps rcvtotale*; 

191 /* 

192 * Get IP and TCP header together in first mbuf. 

193 * Note: IP leaves IP header in first mbuf. 

194 */ 

195 ti = mtod(m, struct tcpiphdr *); 

196 if (iphlen » sizeof(struct ip)) 

197 ip .stripoptions(m, (struct mbuf *) 0); 
198 if (m-»m len « sizeof(struct tcpiphdr)) ( 

199 if ((m = m pullup(m, sizeof(struct tcpiphdr))) == 0} ( 
200 tcpstat.tcps rcvshort4*; 

201 return; 

202 ) 

203 ti = mtod(m, struct tcpiphdr *); 

204 } tcp_input.c 





图 28-2 tcp_input 函 数 : 变量 声明 及 预 处 理 


图 28-3 给 出 了 函数 下 一 部 分 的 代码 ， 验 证 TCP 检 验 和 及 偏 移 字 段 。 
2. 验证 TCP 检 验 和 
205-217 tlen 指 TCP 报 文 段 的 长 度 ， 即 IP 首 部 后 的 字 节 数 。 前 面 介绍 过 ，IP 已 经 从 
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ip_len 中 减 去 了 IP 的 首部 长 度 ， 因 此 ， 变 量 len 就 等 于 整个 IP 数 据 报 的 长 度 ， 即 包括 伪 首 部 
在 内 的 需要 计算 检验 和 的 数据 长 度 。 根 据 TCP 检 验 和 计算 的 要 求 ， 填 充 伪 首 部 中 的 各 个 字段 ， 
如 图 23-19 所 示 。 


205 7* tcp input.c 

206 * Checksum extended TCP header and data. 

207 */ 

208 tlen - ((struct ip *) ti)-»ip len; 

.209 len = sizeof(struct ip) + tlen; 

210 ti-»ti next = ti-»ti prev = 0; 

211 ti-»ti xl = 0; 

212 ti-»ti len - (u short) tlen; 

213 HTONS(ti-»ti, len); 

214 if (ti-»ti. sum = in cksum(m, len)) { 

215 tcpstat.tcps rcvbadsum-«-; 

216 goto drop; 

217 ) 

218 /* 

219 * Check that TCP offset makes sense, 

220 * pull out TCP options and adjust length. XXX 

221 */ 

222 off = ti-»ti off «« 2; 

223 if (off « sizeof(struct tcphdr) || off » tlen) ( 

224 tcpstat.tcps rcvbadoff-«*; 

225 goto drop; 

226 ) 

227 tlen -- off; 

228 ti-»ti len - tlen; . 
tcp input.c 


图 28-3 tcp inputERZÉ: 验证 TCP 检 验 和 及 偏 移 字段 


3. 验证 TCP 偏 移 字 段 
218-228 TCP 的 偏 移 字 段 ，ti_off， 是 以 32 bit 为 单位 的 TCP 首 部 长 度 值 ， 包 括 所 有 的 
TCP 选 项 。 把 它 乘 以 4( 得 到 TCP 报 文 段 中 第 一 个 数据 字 节 所 在 位 置 的 偏 移 量 )， 并 验证 其 有 效 
性 。 偏 移 量 必 须 大 于 等 于 标准 TCP 首 部 的 大 小 (20 字 节 )， 并 且 小 于 等 于 TCP 报 文 段 的 长 度 。 

从 TCP 长 度 变 量 Elen 中 减 去 首部 长 度 ， 得 到 报 文 段 中 携带 的 数据 字 节 数 ( 可 能 为 0)， 并 把 
这 个 值 赋 给 tl1en， 以 及 TCP 首 部 的 变量 ti_1en。 函 数 中 会 多 次 用 到 这 个 值 。 

图 28-4 给 出 了 函数 下 一 部 分 的 代码 : 处 理 特定 的 TCP 选 项 。 


tcp_input.c 
229 if (off > sizeof (struct tcphdr)) ( 
230 if (m-»m len « sizeof(struct ip) « off) ( 
231 if (tm = m pullup(m, sizeof(struct ip) + off)) == 0) ( 
232 tcpstat.tcps rcvshort-«*; 
233 return; 
234 } 
235 ti = mtod(m, struct tcpiphdr *); 
236 ) 
237 optlen - off - sizeof(struct tcphdr); 
238 optp = mtod(m, caddr t) + sizeof(struct tcpiphdr); 
239 /* 
240 * Do quick retrieval of timestamp options ("options 


图 28-4 tcp_input 国 数 : 处 理 特定 的 TCP 选 项 
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241 * prediction?"). If timestamp is the only option and it's 

242 * formatted as recommended in RFC 1323 Appendix A, we 

243 * quickly get the values now and not bother calling 

244 * tcp dooptions(), etc. 

245 */ 

246 if ((optlen == TCPOLEN TSTAMP APPA || 

247 (optlen > TCPOLEN, TSTAMP APPA && 

248 ODtLp([TCPOLEN TSTAMP, APPA] == TCPOPT EOL)) && 

249 *(u.long *) optp == htonl(TCPOPT TSTAMP HDR) && 

250 (ti-»ti flags & TH SYN) == 0) ( 

251 ts present = 1; 

252 ts val = ntohlí(*(u long *) (optp + 4)); 

253 ts ecr = ntohlí(*(u long *) (optp + 8)); 

254 optp = NULL; /* we've parsed the options */ 

255 } 

256 } . 

tcp input.c 

图 28-4 (£x) 


4. 把 IP 和 TCP 首 部 及 选项 帮 入 第 一 个 mbuf 
230-236 如果 首 部 长 度 大 于 20， 说 明 存 在 TCP 选 项 。 必 要 时 调用 m_pul1lup， 把 标准 IP 首 
部 、 标 准 TCP 首 部 的 所 有 TCP 选 项 放 人 签 中 的 第 一 个 mbuf 中 。 因 为 3 部 分 数据 最 大 只 能 为 80 字 
节 (20+20+40)， 因 此 ， 必 定 能 够 放 入 第 一 个 存储 数据 分 组 首部 的 mbuf 中 。 


此 处 能 够 造成 m_Ppullup 失 败 的 惟一 原因 是 卫 数 据 分 组 的 字 节 数 小 于 20 加 上 TCP 

首部 长 度 ， 而 且 已 通过 TCP 检 验 和 的 验证 ， 我 们 认为 mm_Pullup 不 可 能 失败 。 但 有 一 

点 ， 图 28-2 中 调用 的 m_pul1lup， 将 共享 计数 器 tcps_rcvshort， 因 此 ， 查 看 

tcps_rcvshort 并 不 能 说 明 哪 一 个 调用 失败 。 不 管 怎样 ， 从 图 24-5 可 知 ， 即 使 收 到 

九 百 万 个 TCP 报 文 段 之 后 ， 这 个 计数 器 仍旧 为 0。 

5. 快速 处 理 时 间 蕉 选项 
237-255 optlen 等 于 首部 中 TCP 选 项 的 长 度 ，optp 是 指向 第 一 个 选项 字 节 的 指针 。 如 果 
王 列 3 个 条 件 均 为 真 ， 说 明 只 存在 时 间 改 选项， 而 且 格式 正确 : 

1) TCP 选 项 长 度 等 于 12(TCPOLEN_TSTAMP_APPA); 或 TCP 选 项 长 度 大 于 12， 但 
optp [12] 等 于 选项 结束 字 节 。 

2) 选项 的 头 4 个 字 节 等 于 0x0101080a(TCPOPT_TSTAMP_HDR， 在 26.6 节 曾 讨 论 过 )。 

3) SYN 标 志 未 置 位 (说 明 连 接 已 建立 ， 如 果 报 文 段 中 出 现时 间 惟 选项 ， 意 味 着 连接 双方 都 
同意 使 用 这 一 选项 )。 

如 果 上 述 条 件 全 部 满足 ， 则 ts_present 置 为 1 ; 从 接收 报 文 段 首部 获取 两 个 时 间 惟 值 ， 
分 别 赋 给 ts_val 和 ts_ecr; optp 和 置 为 空 ， 因 为 所 有 选项 已 处 理 完毕 。 这 种 辨认 时 间 截 的 
方法 可 以 避免 调用 通用 选项 处 理 函 数 tcp_dooptions， 从 而 使 后 者 能 够 专门 处 理 只 出 现在 
SYN 报 文 段 中 的 各 种 选项 (MSS 和 窗口 大 小 选项 )。 如 果 连 接 双方 同意 使 用 时 间 惟 ， 那 么 在 建立 
的 连接 上 交换 的 几乎 所 有 报 文 段 中 都 可 能 带 有 时间 截 选项， 因此 ， 必 须 加 快 其 处 理 速 度 。 

图 28-5 给 出 了 函数 下 一 部 分 的 代码 ， 寻 找 报 文 段 的 Internet PCB. 

6. 保存 给 入 标志 ， 把 字段 转换 为 主机 字 节 序 
257-264 ”接收 报 文 段 中 的 标志 (SYN、FIN 等 ) 被 保存 在 本 地 变量 tif1ags 中 ， 因 为 函数 在 
处 理 过 程 中 会 多 次 引用 这 些 标志 。TCP 首 部 的 两 个 16 bit 字 段 和 两 个 32 bit 序 号 被 转换 回 主机 字 
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节 序 ， 而 两 个 16 bit 端 口号 则 不 做 处 理 ， 依 旧 为 网 络 字 节 序 ， 因 为 Internet PCB 中 的 端口 号 是 


依照 网 络 字 节 序 存储 的 。 
257 tiflags = ti->ti_flags; Icp-input.c 
258 /* 
259 * Convert TCP protocol specific fields to host format. 
260 */ 
261 NTOHL(ti-»ti seq); 
262 NTOHL (ti-»ti, ack); 
263 NTOHS (ti-»ti, win); 
264 NTOHS (ti-»ti urp); 
265 /* 
266 * Locate pcb for segment. 
267 */ 
268 findpcb: 
269 inp = tcp last, inpcb; 
270 if (inp-»inp lport !- ti-»ti dport |I! 
271 inp-»inp fport !- ti-»ti sport il 
272 inp-»inp faddr.s addr !- ti-»ti,.src.s addr |l 
273 inp-»inp laddr.s addr !- ti-»ti, dst.s addr) ( 
274 inp - in pcblookup(&tcb, ti-»ti src, ti-»ti sport, 
275 ti-»ti dst, ti-»ti dport, INPLOOKUP WILDCARD); 
276 if (inp) 
277 tcp.last inpcb = inp; 
278 --tcpstat.tcps, pcbcachemiss; 
279 } 


tcp_input.c 


图 28-5 tcp input: 寻找 报 文 段 的 Internet PCB 


7. 寻找 Internet PCB 
265-279 TCP 的 缓存 (tcp_last_inpcb) 中 保存 了 收 到 的 最 后 一 个 报 文 段 的 PCB 地 址 ， 采 
用 的 技术 与 UDP 相同 。TCP 使 用 一 对 播 口 来 识别 连接 ， 寻 找 PCB 时 插口 对 中 4 个 元 素 的 比较 次 
序 与 udp_input 相 同 。 如 果 与 TCP 缓 存 中 的 记录 不 匹配 ， 则 调用 in_pcblookup， 把 新 的 
PCB 放 入 缓存 。 

TCP 中 不 会 出 现 我 们 在 UDP 中 曾 遇 到 过 的 问题 : 由 于 高 速 缓存 中 存在 通 配 项 (wildcard 
entry)， 导 致 匹配 成 功率 很 低 。 因 为 只 有 处 于 监听 状态 的 服务 器 ， 才 可 能 在 其 插口 中 保存 通 配 
项 。 连 接 一 旦 建立 ， 插 口 对 的 4 个 元 素 将 全 部 填 人 确定 值 。 从 图 24-5 可 知 ， 高 速 缓存 命中 率 能 
$535 $8096. 

图 28-6 给 出 了 函数 下 一 部 分 的 代码 。 





280 
281 
282 
283 
284 
285 
286 
287 
288 


tcp input.c 
/* emp 

* If the state is CLOSED (i.e., TCB does not exist) then 

* all data in the incoming segment is discarded. 

* If the TCB exists but is in CLOSED state, it is embryonic, 

* but should either do a listen or a connect soon. 

*/ 

if (inp -- 0) 

goto dropwithreset; 

tp = intotcpcb(inp); 


图 28-6 ”tcp_input 函 数 : 判断 是 否 应 丢弃 报 文 段 
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289 if (tp == 0) 

290 goto dropwithreset; 

291 if (tp-»t state == TCPS, CLOSED) 

292 goto drop; 

293 /* Unscale the window into a 32-bit value. */ 
294 if ((tiflags & TH SYN) == O0) 

295 tiwin = ti-»ti win << tp-»snd scale; 

296 else 

297 tiwin - ti-»ti win; 


tcp. input.c 
图 28-6 (£X) 


8. 丢弃 报 文 段 并 生成 RST 
280-287 如 果 没 有 找到 PCB， 则 丢弃 输入 报 文 段 ， 并 发 送 RST 作 为 响应 。 例 如 ，TCP 收 到 了 
一 个 SYN， 但 报 文 段 指定 的 服务 器 并 不 存在 ， 则 直接 向 对 端 发 送 RST。 回 想 一 下 ， 出 现 这 种 
情况 时 UDP 的 处 理 方式 ， 它 将 发 送 一 个 ICMP 端 口 不 可 达 差 错 。 
288-290 ”如 果 PCB 存 在 ， 但 对 应 的 TCP 控 制 块 不 存在 ， 可 能 插口 已 关闭 (tcp_close 释 放 
TCP 之 后 ， 才 释放 PCB)， 则 丢弃 输入 报 文 段 ， 并 发 送 RST 作 为 响应 。 

9. 丢弃 报 文 段 且 不 发 送 响 应 
291-292 ”如 果 TCP 控 制 块 存在 ， 但 连接 状态 为 CLOSED， 说 明 插 口 已 创建 ， 且 得 到 了 本 地 
地 址 和 本 地 端口 号 ， 但 还 未 调用 connect 或 者 1isten。 报 文 段 被 丢弃 ， 且 不 发 送 任何 响应 。 
举例 来 说 ， 如 果 客 户 向 服务 器 发 送 的 连接 请 求 报 文 段 到 达 时 ， 服 务 器 已 调用 了 pindq， 但 还 未 
调用 1isten。 这 种 情况 下 ， 客 户 连接 请 求 将 超时 ， 导 致 重 传 SYN。 

10. 不 改变 通告 窗口 大 小 
293-297 ”如 果 需 要 支持 窗口 大 小 选项 ， 连 接 双 方 都 必须 在 连接 建立 时 通过 窗口 大 小 选项 规 
定 窗口 缩放 因子 。 如 果 报 文 段 中 包含 SYN， 说 明 此 时 窗口 缩放 因子 还 未 定义 ， 因 此 ， 直 接 把 
TCP 首 部 的 窗口 字段 值 复制 给 tiwin; 否则 ， 首 部 中 的 16 bit 数 值 应 根据 窗口 缩放 因子 左 移 ， 
得 到 32 bit 的 数值 。 

图 28-7 给 出 了 函数 的 下 一 部 分 代码 ， 如 果 选 取 了 插口 的 S50_DEBUG 选 项 ， 或 者 插口 正 处 于 
监听 状态 ， 则 完成 一 些 相应 的 预 处 理工 作 。 


298 so = inp-»inp socket; fep input.c 
299 if (so-»so options & (SO DEBUG | SO ACCEPTCONN)) ( 
300 if (so-»so options & SO DEBUG) ( 

301 ostate = tp-»t, state; 

302 tcp saveti = *ti; 

303 ) 

304 if (so-»so, options & SO ACCEPTCONN) ( 

305 SO = sonewconn(íso, 0); 

306 if (so == 0) 

307 goto drop; 

308 /* 

309 * This is ugly, but .... 

310 * 

311 * Mark socket as temporary until we're 
312 * committed to keeping it. The code at 
313 * 'drop' and 'dropwithreset' check the 


图 28-7 tcp_input 函 数 : 处 理 调试 选项 和 监听 状态 的 插口 
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314 * flag dropsocket to see if the temporary 

315 * socket created here should be discarded. 

316 * We mark the socket as discardable until 

317 * we're committed to it below in TCPS LISTEN. 

318 */ 

319 dropsocket ++; 

320 inp = (struct inpcb *) so-»so pcb; 

321 inp-»inp laddr = ti-»ti dst; 

322 inp-»inp lport - ti-»ti dport; 

323 fif BSD»-43 

324 inp-»-inp options = ip srcroute(); 

325 #endif 

326 tp = intotcpcb(inp); 

327 tp-»t state = TCPS LISTEN; 

328 /* Compute proper scaling value from buffer space */ 

329 while (tp-»2request r scale < TCP MAX WINSHIFT && 

330 TCP. MAXWIN «« tp-»request r scale « so-»so rcv.sb hiwat) 

331 tp-»request r scale««; 

332 ) 

333 } . 

tcp input.c 

图 28-7 ( 续 ) 


11. 如 果 选 定 了 插口 调试 选项 ， 则 保存 连接 状态 及 IP 和 TCP 首 部 
300-303 如 果 So_DEBUG 选 项 置 位 ， 则 保存 当前 连接 状态 (ostate) 及 IP 和 TCP 首 部 
(tcp_saveti)。 国 数 结束 时 ， 这 些 信 息 将 作为 参数 传 给 tcp_trace( 图 29-20)。 

12. 如 果 监 听 播 口 收 到 了 报 文 段 ， 则 创建 新 的 插口 
304-319 如 果 有 报 文 段 到 达 处 于 监听 状态 的 插口 (Listen 置 位 SO_ACCEPTCONN)， 则 调用 
sonewconn 创 建新 的 插口 。 发 出 PRU_ATTACH 协 议 请 求 (图 30-2)， 分 配 Internet PCB 和 TCP 控 
制 块 。 在 TCP 最 终 接受 连接 请 求 之 前 ， 还 需 做 更 多 的 处 理 ( 如 一 个 最 基本 的 问题 ， 报 文 段 中 是 
否 包含 SYN)， 如 果 发 现 差错 ， 置 位 dropsocket 标 志 ， 控 制 跳 转 至 标注 “drop” 和 
*dropwithreset", ERHI L1. 
320-326 inp 和 tp 将 指向 新 建 的 插口。 本 地 地 址 和 本 地 端口 号 直接 从 接收 报 文 段 TCP 首 部 
的 目的 地 址 和 目的 端口 号 字段 中 复制 。 如 果 输 入 数据 报 中 有 源 选 路 的 路 由 ，TCP 调 用 
ip_srcroute， 得 到 指向 保存 数据 报 源 选 路 选项 的 mbuf 的 指针 ， 并 赋 给 inp_options。 
TCP 向 连接 发 送 数据 时 ，tcp_output 会 把 源 选 路 选项 传 给 ip_output， 使 用 与 之 相同 的 逆 
向 路 由 。 
327 新 插口 的 状态 设 为 LISTEN。 如 果 接 收报 文 段 中 包含 SYN， 控 制 将 转 到 图 28-16 中 的 代码 ， 
完成 连接 建立 请 求 的 处 理 。 

13. 计算 窗口 缩放 因子 
328-331 窗口 缩放 因子 取决 于 接收 缓存 的 大 小 。 如 果 接 收 缓存 大 于 通告 窗口 的 最 大 值 
(65535，TCP_MAXWIN)， 则 左 移 65535， 直 到 结果 大 于 接收 缓存 大 小 ， 或 者 窗口 缩放 因子 已 
等 于 最 大 值 (14，TCP_MAX_WINSHIFT)。 注 意 ， 窗 口 缩放 因子 的 选取 基于 监听 插口 的 接收 组 
存 ， 也 就 是 说 ， 应 用 进程 调用 1isten 进 入 监听 状态 之 前 ， 应 首先 设 定 SO_RCVBUF 插 口 选项 ， 
或 者 继承 tcp_recvspace 中 的 默认 值 。 

窗口 缩放 因子 最 大 值 等 于 14， 而 65535 x 2 等 于 1 073 725 440, 已 远 远 大 于 接收 
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缓存 的 最 大 值 (NeU3 中 为 2626 144)， 因 此 ,在 窗口 缩放 因子 远 小 于 14 时 ， 御 环 即 终止 。 
参见 习题 28.1 和 28.2。 


图 28-8 给 出 了 TCP 输 入 处 理 下 一 部 分 的 代码 。 


334 7s tcp. input.c 
335 * Segment received on connection. 
336 * Reset idle time and keepalive timer. 
337 */ 
338 tp-»t idle = 0; 
339 tp-»t timer[TCPT KEEP] = tcp keepidle; 
340 /* 
341 * Process options if not in LISTEN state, 
342 * else do it below (after getting remote address). 
343 */ 
344 if (optp && tp-»t,.state !- TCPS LISTEN) 
345 tcp dooptions(tp, optp, optlen, ti, 
346 &ts present, &ts val, &ts ecr); . . 
tcp input.c 


图 28-8 tcp_input 函 数 : 复位 空 亲 时间 和 保 活 定时 器 ， 处 理应 用 进程 选项 


14. 复位 空闲 时 间 和 保 活 定时 器 
334-339 由 于 连接 上 收 到 了 报 文 段 ，t_id1le 重 设 为 0。 保 活 定 时 器 复位 为 2 小 时 。 

15. 如 果 不 处 于 监听 状态 ， 处 理 TCP 选 项 
340-346 如果 TCP 首 部 中 有 选项 ， 并 且 连 接 状态 不 等 于 LISTEN， 调 用 上 cp_dooptions 进 
行 处 理 。 前 面 介 绍 过 ， 如 果 连 接 已 建立 ， 接 收报 文 段 中 只 存在 时 间 戳 选项， 并 且 时 间 葵 选项 
格式 符合 RFC 1323 附 录 A 的 建议 ， 这 种 情况 在 图 28-4 中 已 处 理 过 ， 而 且 optp 被 置 为 空 。 如 果 
插口 处 于 监听 状态 ，TCP 把 对 端 地 址 保存 在 PCB 中 之 后 ， 才 会 调用 tcp_dooptions， 这 是 
因为 处 理 MSS 选 项 时 需要 了 解 到 达 对 端的 路 由 ， 具 体 代 码 如 图 28-17 所 示 。 


28.3 tcp_dooptions 函 数 


函数 处 理 Net/3 支 持 的 5 个 TCP 选 项 (图 26-4): EOL, NOP, MSS, AOADA. E 
28-9 给 出 了 函数 的 第 一 部 分 。 


tcp_input.c 
1213 void pmp 


1214 tcp dooptions(tp, cp, cnt, ti, ts, present, ts val, ts, ecr) 
1215 struct tcpcb *tp; 
1216 u char *cp; 


1217 int cnt; 

1218 struct tcpiphdr *ti; 

1219 int *ts present; 

1220 u long *ts val, *ts.ecr; 

1221 ( 

1222 u.short mss; 

1223 int opt, optlen; 

1224 for (; cnt > 0; cnt -= optlen, cp += optlen) ( 
1225 opt - cp[0]; 

1226 if (opt -- TCPOPT EOL) 


图 28-9 tcp dooptionstÉüfi: 处 理 EOL 和 NOP 选 项 
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1227 break; 

1228 if {opt == TCPOPT_NOP) 
1229 optlen = 1; 

1230 else ( 

1231 optien = cp[1]; 
1232 if (optlen <= O0) 
1233 break; 

1234 ) 

1235 switch (opt) ( 

1236 default: 

1237 continue; 


tcp input.c 
图 28-9 (£X) 


1. 获取 选项 类 型 的 长 度 
1213-1229 代码 遍历 TCP 首 部 选项 ， 遇 到 EOL( 选 项 终止 ) 时 终止 循环 ， 国 数 返 回 ; 遇 到 
NOP 时 ， 将 其 长 度 置 为 1， 因 为 它 后 面 不 带 长 度 字段 (图 26-16)， 控 制 转 到 switch 语 名 的 
default 子 句 ， 对 其 不 做 处 理 。 
1230-1234 所 有 其 他 选项 的 长 度 保存 在 optlen 中 。 

所 有 新 增 的 Net/3 不 支持 的 TCP 选 项 都 被 忽略 。 这 是 因为 : 

将 来 定义 的 所 有 新 选项 都 将 带 有 长 度 字段 NOP 和 EOL 是 仅 有 的 两 个 不 带 长 度 字段 的 选 

， 而 for 语 名 的 每 次 循环 都 跳 过 optlen 字 节 。 

^ switch 语 句 的 aefault 子 句 忽略 所 有 未 知 选项 。 

图 28-10 给 出 了 tcp_dooptions 最 后 一 部 分 的 代码 ， 处 理 MSS.、 窗口 大 小 和 时 间或 先 
项 。 

2. MSS 选 项 
1238-1246 ”如 果 长 度 不 等 于 4(TCPOLEN_MAXSEG)， 或 者 报 文 段 不 带 SYN 标 志 ， 则 忽略 该 
选项 。 否 则 ， 复 制 两 个 MSS 字 节 到 本 地 变量 ， 转 换 为 主机 字 节 序 ， 调 用 tcp_mss 完 成 处 理 。 
tcp_mss 负 责 更 新 TCP 控 制 块 中 的 变量 t_maxseg， 即 发 向 对 端的 报 文 段 中 允许 携带 的 最 大 
字 节 数 。 

3. 窗口 大 小 选项 
1247-1254 ”如果 长 度 不 等 于 4(TCPOLEN_WINDOW)， 或 者 报 文 段 不 带 SYN 标 志 ， 则 忽略 该 
选项 。Net/3 置 位 TF_RCVD_SCALE， 说 明 收 到 了 一 个 窗口 大 小 选项 请 求 ， 并 在 
requested_s_scale 中 保存 缩放 因子 。 由 于 cp[2] 只 有 一 个 字 节 ， 因 此 ， 不 存在 边界 问题 。 
当 连 接 转移 到 ESTABLISHED 状 态 时 ， 如 果 连 接 双方 都 同意 支持 窗口 大 小 选项 ， 则 使 用 这 一 功 
能 。 

4. 时 间 稚 选项 
1255-1273 如果 长 度 不 等 于 10(TCPOLEN_TIMESTAMP)， 则 忽略 该 选项 。 否 则 ， 
ts_present 指 向 的 标志 被 置 位 1， 两 个 时 间 戳 值 分 别 保存 在 ks_val 和 ts_eczr 所 指向 的 变 
量 中 。 如 果 收 到 的 报 文 段 带 有 SYN 标 志 ，Net/3 置 位 TF_RCVD_TSTMP， 说 明 收 到 了 一 个 时 间 
截 请 求 。ts_recent 等 于 收 到 的 时 间 截 值 ，t s_recent_age 等 于 tcp_now,， 从 系统 初 启 
到 目前 的 时 间 ， 以 500ms 滴 答 为 单位 。 


eum 
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tcp. input.c 

1238 case TCPOPT MAXSEG: 

1239 if (optlen !- TCPOLEN MAXSEG) 

1240 continue; 

1241 if (!(ti-»ti, flags & TH, SYN)) 

1242 continue; 

1243 bcopy((char *) cp + 2, (char *) &mss, sizeof(mss)):; 

1244 NTOHS (mss) ; 

1245 (void) tcp mss(tp, mss); /* sets t maxseg */ 

1246 break; 

1247 case TCPOPT WINDOW: 

1248 if (optlen !- TCPOLEN, WINDOW) 

1249 continue; 

1250 if (!(ti-»ti flags & TH SYN)) 

1251 continue; 

1252 tp-»t. flags |= TF. RCVD, SCALE; 

1253 tp-»requested s scale = min(cp(2], TCP MAX WINSHIFT); 

1254 break; 

1255 case TCPOPT TIMESTAMP: 

1256 if (optlen !- TCPOLEN TIMESTAMP) 

1257 continue; 

1258 *ts present - 1; . 

1259 bcopy((char *) cp + 2, (char *) ts, val, sizeof(*ts val)); 

1260 NTOHL (*ts, val); 

1261 bcopy((char *) cp + 6, (char *) ts ecr, sizeof(*ts ecr)); 

1262 NTOHL (*ts, ecr); 

1263 /* . 

1264 * A timestamp received in a SYN makes 

1265 * it ok to send timestamp requests and replies. 

1266 */ 

1267 if (ti-»ti flags & TH SYN) ( 

1268 tp-»t flags l= TF RCVD TSTMP; 

1269 tp-»ts recent = *ts val; 

1270 tp-»-ts recent age = tcp, now; 

1271 } 

1272 break; 

1273 } 

1274 ) 

1275 ) 。 
tcp input.c 





图 28-10 tcp dooptionsiAZÉ: 处 理 MSS、 窗 口 大 小 选项 和 时 间 戳 选项 


28.4 首部 预测 


下 面 接 着 图 28-8 中 的 代码 ， 继 续 介绍 tcp_input 函 数 。 

首部 预测 最 初 由 Van Jacobson 提 出 ， 出 现在 4.3BSD Reno 版 中 。 除 了 下 面 要 讨论 的 代码 外 ， 
只 有 [Jacobson 1990b] 还 介绍 过 该 算法 ， 核 心 内 容 来 自 3 张 给 出 实现 代码 的 幻灯 片 。 

首部 预 而 算法 通过 处 理 两 种 常见 现象 ， 简 化 单 向 数据 传输 的 实现 。 

1) 如果 TCP 发 送 数据 ， 连 接 上 等 待 接收 的 下 一 个 报 文 段 是 对 已 发 送 数据 的 ACK。 

2) 如 果 TCP 接 收 数据 ， 连 接 上 等 待 接收 的 下 一 个 报 文 段 是 顺序 到 达 的 数据 报 文 段 。 

两 种 情况 下 ， 通 过 若干 测试 ， 判 定 收 到 的 报 文 段 是 否 是 等 待 接收 的 报 文 段 。 如 果 是 ， 则 
立即 处 理 ， 比 起 本 章 接 下 来 和 下 一 章 介绍 的 通用 处 理 要 快 得 多 。 
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[Partridge 1993] 介 绍 了 一 种 基于 Van Jacobson 的 研究 成 果 ， 速 度 更 快 的 TCP 首 部 
预测 算法 实现 。 


图 28-11 给 出 了 首部 预测 的 第 一 部 分 代码 。 





347 7 tcp input.c 

348 * Header prediction: check for the two common cases 

349 * of a uni-directional data xfer. If the packet has 

350 * no control flags, is in-sequence, the window didn't 

351 * change and we're not retransmitting, it's a 

352 * candidate. If the length is zero and the ack moved 

353 * forward, we're the sender side of the xfer. Just 

354 * free the data acked & wake any higher-level process 

355 * that was blocked waiting for space. If the length 

356 * is non-zero and the ack didn't move, we're the 

357 * receiver side. If we're getting packets in order 

358 * (the reassembly queue is empty), add the data to 

359 * the socket buffer and note that we need a delayed ack. 

360 */ . 

361 if (tp->t_state -- TCPS ESTABLISHED && 

362 (tiflags & (TH SYN | TH FIN 1 TH RST | TH URG | TH ACK)) -- TH ACK && 

363 (!ts present || TSTMP,GEQ(ts. val, tp-»ts recent)) && 

364 ti-»ti seq == tp-»rcv nxt && 

365 tiwin && tiwin -- tp-»snd wnd && 

366 tp-»snd nxt == tp-»snd max) ( 

367 /* 

368 * If last ACK falls within this segment's sequence numbers, 

369 * record the timestamp. 

370 */ 

371 if (ts present && SEQ LEQ(ti-»ti seq, tp-»last,ack sent) && 

372 SEQ LT(tp-»last ack sent, ti-»ti seq + ti-»ti len)) ( 

373 tp-»ts, recent age = tCp now; 

374 tp-»ts recent = ts val; 

375 } ， 
tcp input.c 





图 28-11 tcp inputi&ZK: 首部 预测 ， 第 一 部 分 


1. 判定 收 到 的 报 文 段 是 否 是 等 待 接收 的 报 文 段 
347-366 下 列 6 个 条 件 必 须 全 真 ， 才 能 说 明 收 到 的 报 文 段 是 连接 正 等 待 接收 的 数据 报 文 段 或 
ACK 报 文 段 : 

D 连接 状态 等 于 ESTABLISHED 。 

2) 下 列 4 个 控制 标志 必须 不 设 定 : SYN、FIN、RST、 或 URG。 但 ACK 标 志 必 须 置 位 。 换 
言 之 ，TCP 的 6 个 控制 标志 中 ，ACK 标 志 必 须 置 位 ， 前 面 列 出 的 4 个 标志 必须 清除 ，PSH 标 志 
置 位 与 否 无 关 紧 要 (连接 处 于 ESTABLISHED 状 态 时 ， 除 非 RST 标 志 置 位 ， 一 般 情 况 下 ，ACK 
都 会 置 位 )。 

3) 如 果 报 文 段 带 有 时 间 惟 选项 ， 则 最 新 时 间 戳 值 (ts_val) 必 须 大 于 或 等 于 连接 上 以 前 收 
到 的 时 间 长 值 (ts_recent)。 本 质 上 说 ， 这 就 是 PAWS 测 试 ，28.7 节 将 详细 介绍 PAWS。 如 果 
ts_val 小 于 ts_recent， 则 新 报 文 段 是 乱 序 报 文 段 ， 因 为 它 的 发 送 时 间 早 于 连接 上 收 到 的 
上 一 个 报 文 段 。 由 于 对 端 通常 把 时 钟 值 填充 到 时 间 玲 字段 (Net/3 的 全 局 变量 tcp_now)， 收 到 
的 时 间 改 正常 情况 下 应 该 是 一 个 单调 递增 的 序列 。 

并非 每 个 顺序 到 达 报 文 段 中 的 时 间 惟 都 会 增加 。 事实 上 ，Net/3 系 统 每 500 ms 增加 一 次 时 
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钟 值 (tcp_now)， 在 这 段 时间 间 隔 中 ， 完 全 可 能 发 送 多 个 报 文 段 。 假 定 利 用 时 间 截 和 序号 构 
成 一 个 64 bit 的 数值 ， 序 号 放 在 低 32 bit， 时 间 惟 放 在 高 32 bit, XT 8E NUT HROCER, iX 64 
bit 的 值 都 至 少 会 增加 1( 应 考虑 取 模 算法 )。 

4) 报 文 段 的 起 始 序 号 (ti_seq) 必 须 等 于 连接 上 等 待 接收 的 下 一 个 序号 (rcv_nxt)。 如 果 
这 个 条 件 为 假 ， 那 么 收 到 的 报 文 段 是 重 传 报 文 段 或 是 乱 序 报 文 段 。 

5) 报 文 段 通告 的 窗口 大 小 必须 非 零 (Liwin)， 必 须 等 于 当前 发 送 窗口 (sna_wnd)。 也 就 
是 说 ， 无 需 更 新 当前 发 送 窗 口 。 

6) 下 一 个 发 送 序号 (snd_nxt) 必 须 等 于 已 发 送 的 最 大 序号 (snd_max)， 也 就 是 说 ， 上 一 
个 发 送 报 文 段 不 是 重 传 报 文 段 。 

2. 根据 接收 的 时 间 惟 更 新 ts_recent 
367-375 ”如 果 存 在 时 间 稚 选项， 并 县 时 间 扒 值 满 足 图 26-18 中 的 测试 条 件 ， 则 把 收 到 的 时 间 
截 值 (ts_val) 赋 给 ts_recent， 并 在 ts_recent_age 中 保存 当前 时 钟 (tcp_now)。 

前 面 讨论 过 图 26-18 中 的 时 间 榴 有 效 性 测试 条 件 所 存在 的 问题 ， 并 在 图 26-20 中 给 

出 了 正确 的 测试 条 件 。 但 在 首部 预测 算法 的 实现 中 ， 图 26-20 中 的 TSTMP_GEQ 测 试 

是 多 余 的 ， 因 为 图 28-11 起 始 处 的 ijf 语 后 己 完成 了 这 一 测试 

图 28-12 给 出 了 首部 预测 的 下 一 部 分 代码 ， 用 于 单 向 数据 的 发 送 方 : 处 理 输出 数据 的 
ACK。 





376 if (ti-»ti len -- 0) ( tcp input.c 
377 if (SEQ GT(ti-»ti ack, tp-»snd una) && 

378 SEQ LEQ(ti-»ti ack, tp-»snd max) && 

379 ` tp-»snd, cwnd >= tp-»snd wnd) { 

380 /* 

381 * this is a pure ack for outstanding data. 
382 */ 

383 *«tcpstat.tcps predack; 

384 if (ts present) 

385 tcp xmit timer(tp, tcp now - ts ecr + 1); 
386 else if (tp-»t rtt && 

387 SEQ GT(ti-»ti ack, tp-»t rtseq)) 

388 tcp xmit timer(tp, tp-»t rtt); 

389 acked = ti-»ti, ack - tp-»snd una; 

390 tcpstat.tcps, rcvackpack-4*; 

391 tcpstat.tcps rcvackbyte += acked; 

392 sbdrop(&so-»so snd, acked); 

393 tp-»snd una = ti-»ti, ack; 

394 m freemím); 

395 /* 

396 * If all outstanding data is acked, stop 
397 * retransmit timer, otherwise restart timer 
398 * using current (possibly backed-off) value. 
399 * If process is waiting for space, 

400 * wakeup/selwakeup/signal. If data 

401 * is ready to send, let tcp output 

402 * decide between more output or persist. 

403 */ 

404 if (tp-»snd una += tp-»snd max) 

405 tp-»t timer[TCPT REXMT] = 0; 
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406 else if (tp-»t timer[TCPT PERSIST] == 0) 

407 tp-»t timer[TCPT REXMT] = tp-»t rxtcur; 

408 if (so-»so,snd.sb flags & SB, NOTIFY) 

409 sowwakeup(so) ; 

410 if (so-»so, snd.sb cc) 

411 (void) tcp output (tp) ; 

412 return; 

413 } . 

j tcp_input.c 

图 28-12 ( 续 ) 

3. &JACKI X 


376-379 如 果 下 列 4 个 条 件 全 真 ， 则 收 到 的 是 一 个 纯 ACK 报 文 段 。 

D 报 文 段 不 携带 数据 (ti_len 等 于 0)。 

2) 报 文 段 的 确认 字段 (ti_ack) 大 于 最 大 的 未 确认 序号 (snd_una)。 由 于 测试 条 件 是 “大 
于 ?， 而 非 “ 大 于 等 于 >， 也 就 是 要 求 收 到 的 ACK 必 须 确 认 未 曾 确认 过 的 数据 。 

3) 报 文 段 的 确认 字段 (ti_ack) 小 于 等 于 已 发 送 的 最 大 序号 (snd_max)。 

4) 拥塞 窗口 大 于 等 于 当前 发 送 窗 口 (sndq_wnd)， 要 求 窗 口 完全 打开 ， 连 接 不 处 于 慢 起 动 
或 拥塞 避免 状态 。 

4. 更 新 RTT 值 
384-388 如果 报 文 段 携带 时 间 堆 选项， 或 者 报 文 段 中 的 确认 序号 大 于 某 个 计时 报 文 段 的 起 
始 序 号 ， 则 调用 tcp_xmit_timer 更 新 RTT 值 。 

5. A X 3E !& £g p ML SACAR CE I 
389-394 acked 等 于 接收 报 文 段 确 认 字 段 所 确认 的 字 节 数 ， 调 用 sbdrop 从 发 送 缓存 中 删 
除 这 些 字 节 。 更 新 最 大 的 未 确认 过 的 序号 (snd_una) 为 报 文 段 的 确认 字段 值 ， 释 放 保存 接收 
报 文 段 的 mbuf 链 表 ( 由 于 数据 长 度 等 于 0， 实 际 只 有 一 个 保存 首部 的 mbuf)。 

6. 终止 重 传 定时 器 
395-407 如果 接收 报 文 段 确认 了 所 有 已 发 送 数 据 (snd_una 等 于 snd_max)， 则 关闭 重 传 定 
时 器 。 若 条 件 不 满足 ， 且 持续 定时 器 未 设 定 ， 则 重启 重 传 定时 器 ， 时 限 设 为 t_rxtcur。 

前 面 介绍 过 ，tcp_output 发 送 报 文 段 时 ， 只 有 重 传 定时 器 未 启动 ， 才 会 设 定 它 。 如 果 
连续 发 送 两 个 报 文 段 ， 发 送 第 一 个 报 文 段 时 定时 器 启动 ， 发 送 第 二 个 报 文 段 时 定时 器 不 变 。 
但 如 果 只 收 到 第 一 个 报 文 段 的 确认 ， 则 重 传 定时 器 必须 重启 ， 防 止 第 二 个 报 文 段 丢失 。 

7. 唤醒 等 待 进程 
408-409 ”如果 发 送 缓存 修改 后 ， 有 必要 唤醒 等 待 的 应 用 进程 ， 则 调用 sowwakeup。 从 图 
16-5 可 知 ， 如 果 有 应 用 进程 正在 等 待 缓存 空间 ， 或 者 设 定 了 与 缓存 有 关 的 select 选 项 ， 或 者 
正 等 待 播 口上 的 SIGIO， 则 SB_NOTIEFY 为 真 。 

8. 生成 更 多 的 输出 
410-411 如果 发 送 缓存 中 有 数据 ， 则 调用 tcp_output， 因 为 发 送 窗口 已 经 向 右 移 动 。 
snd_una 已 增加 ， 但 snd_wnd 未 变化 ， 因 此 ， 图 24-17 中 的 整个 窗口 将 向 右 移 动 。 

图 28-13 给 出 了 首部 预测 的 下 一 部 分 代码 ， 接 收 方 收 到 顺序 到 达 的 数据 时 进行 的 各 种 处 
理 。 
9. 测试 收 到 报 文 段 是 否 是 连接 等 待 接收 的 下 一 个 报 文 段 
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414-416 如 果 下 列 4 个 条 件 均 为 真 ， 则 收 到 的 报 文 段 是 连接 上 等 待 接收 的 下 一 报 文 段 ， 并 且 
揪 口 缓存 中 的 剩余 空间 能 够 容纳 到 达 的 数据 。 

D 报 文 段 的 数据 量 (ti_1en) 大 于 0， 即 图 28-12 起 始 处 if 语句 的 el1se 子 句 。 

2) 确认 字段 (ti_ack) 等 于 最 大 的 未 确认 序号 ， 即 报 文 段 未 确认 任何 数据 。 

3) 连接 乱 序 报 文 段 的 重组 队列 为 空 (seq_next 等 于 tp)。 

4) 接收 缓存 能 够 容纳 报 文 段 数 据 。 

10. 完成 接收 数据 的 处 理 
423-435 等 待 接收 序号 (xcv_nxt) 递 增收 到 的 数据 字 节 数 。 从 mbuf 链 中 丢弃 JP 首部 、TCP 
首部 和 所 有 TCP 选 项 ， 将 剩余 的 mbuf 链 附加 到 插口 的 接收 缓存 ， 调 用 sorwakeup 唤 醒 接收 进 
程 。 注 意 ， 代 码 没有 调用 TCP_REASS 宏 ， 因 为 宏 代 码 中 的 条 件 判定 已 经 包含 在 首部 预测 的 测 
试 条 件 中 。 设 定 延 迟 ACK 标 志 ， 输 入 处 理 结束 。 


- - - tcp. input.c 
414 ) else if (ti-»ti, ack == tp-»snd una && 
415 tp-»seg next == (struct tcpiphdr *) tp && 
416 ti-»ti len <= sbspace(&so-»so.rcv)) ( 
417 /* 
418 * this is a pure, in-sequence data packet 
419 * with nothing on the reassembly queue and 
,420 * we have enough buffer space to take it. 
421 */ 
422 *-tcpstat.tcps  preddat; 
423 tp-»rcv nxt += ti-»ti len; 
424 tcpstat.tcps rcvpacks«*; 
425 tcpstat.tcps rcvbyte += ti-»ti len; 
426 /* 
427 * Drop TCP, IP headers and TCP options then add data 
428 * to Socket buffer. 
429 */ 
430 m-»m data += sizeof(struct tcpiphdr) + off - sizeof (struct tcphdr); 
431 m-»m len -= sizeof(struct tcpiphdr) + off ~ sizeof(struct tcphdr); 
432 sbappend(&so-»so,rcv, m); 
433 sorwakeup (so); 
434 tp->t_flags |= TF_DELACK; 
435 return; 
436 } 
437 } . 

tcp input.c 


图 28-13 tcp_input 函 数 : 首部 预测 的 接收 方 处 理 


统计 量 


首部 预测 能 在 多 大 程度 上 改善 系统 性 能 ”让 我 们 做 个 简单 的 实验 ， 跨 越 LAN(basi 和 
svr4 间 的 双向 通信 ) 的 数据 传输 ， 和 跨越 WAN(vangogh.cs.berkeley.edu 和 
ftp.uu.net 之 间 的 双向 通信 ) 的 数据 传输 。 运 行 netstat， 得 到 类 似 于 图 24-5 的 输出 ， 列 出 
了 两 种 情况 下 的 首部 预测 寄存 器 的 值 。 

跨越 LAN 传 输 时 ， 无 数据 分 组 丢失 ， 只 有 一 些 重复 的 ACK。 利 用 首部 预 铀 处 理 的 报 文 段 
可 占 到 97%~100%。 跨 越 WAN 时 ， 比 例 有 所 降低 ， 约 为 83%~99% 之 间 。 

请 注意 ， 首 部 预测 的 应 用 限定 于 单独 的 连接 。 无 论 主机 是 否 收 到 了 额外 的 TCP 流 量 ，PCB 
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组 存 必 须 在 主机 范围 内 共享 。 即 使 TCP 流 量 的 丢失 造成 了 PCB 缓 存 缺 失 ， 但 如 果 给 定 连接 上 
的 数据 分 组 未 丢失 ， 这 条 连接 上 的 首部 预测 仍 能 工作 。 
28.5 TCP 输 入 : 缓慢 的 执行 路 径 


下 面 讨论 首部 预测 失败 时 的 处 理 代码 ，tcp_input 中 较 盆 的 一 条 执行 路 径 。 图 28-14 给 
出 了 下 一 部 分 代码 ， 为 输入 报 文 段 的 处 理 完 成 一 些 准 备 工作 。 


238 7* tcp. input.c 
439 * Drop TCP, IP headers and TCP options. 
440 */ 
441 m-»m data += sizeof(struct tcpiphdr) + off - sizeof(struct tcphdr); 
442 m-»m len -= sizeof(struct tcpiphdr) + off - sizeof(struct tcphdr); 
443 /* 
444 * Calculate amount of space in receive window, 
445 * and then do TCP input processing. 
446 * Receive window is amount of space in rcv queue, 
447 * but not less than advertised window. 
448 */ 
449 { 
450 int win; 
451 win = sbspace(&so-»so rcv); 
452 if (win < 0) 
453 win = 0; 
454 tp-»rcv wnd = max(win, (int) (tp-»rcv adv - tp->rcv_nxt)); 
455 } . 
tcp. input.c 


图 28-14 tcp_input 函 数 : ZEIPAUTCPH AD 


1. 丢弃 IP 和 TCP 首 部 ， 包 括 TCP 选 项 
438-442 ”更 新 数据 指针 和 mbuf 链 表 中 的 第 一 个 mbuf 的 长 度 ， 以 跳 过 IP 首 部 、TCP 首 部 和 所 
有 TCP 选 项 。 因 为 off 等 于 TCP 首 部 长 度 ， 包 括 TCP 选 项 ， 因 此 ， 表 达 式 中 减 去 了 标准 TCP 首 
部 的 大 小 (20 字 市 )。 

2. 计算 接收 窗口 
443-455 win 等 于 揪 口 接收 缓存 中 可 用 的 字 节 数 ，rcv_adv 减 去 rcv_nxt 等 于 当前 通告 的 
窗口 大 小 ， 接 收 窗口 等 于 上 述 两 个 值 中 较 大 的 一 个 ， 这 是 为 了 保证 接收 窗口 不 小 于 当前 通告 
窗口 的 大 小 。 此 外 ， 如 果 最 后 一 次 窗口 更 新 后 ， 应 用 进程 从 插口 接收 缓存 中 取 走 了 数据 ， 
win 可 能 大 于 通告 窗口 ， 因 此 ，TCP 最 多 能 够 接收 win 字 节 的 数据 (即使 对 端 不 会 发 送 超过 通 
告 窗 口 大 小 的 数据 ) 。 

因为 函数 后 面 的 代码 必须 确定 通告 窗口 中 能 放 入 多 少数 据 ( 如 果 有 )， 所 以 现在 必须 计算 通 
告 窗口 的 大 小 。 东 在 通告 窗口 之 外 的 接收 数据 被 丢弃 落 在 窗口 左 侧 的 数据 是 已 接收 并 确认 
过 的 数据 ， 落 在 窗口 右 侧 的 数据 是 暂 不 允许 对 端 发 送 的 数据 。 


28.6 完成 被 动 打开 或 主动 打开 


如 果 连 接 状态 等 于 LISTEN 或 者 SYN_SENT， 则 执行 本 节 给 出 的 代码 。 连 接 处 于 这 两 个 状 
态 时 ， 等 待 接收 的 报 文 段 为 SYN， 和 任何 其 他 报 文 段 将 被 丢弃 。 


28.6.1 
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完成 被 动 打开 


连接 状态 等 于 LISTEN 时 ， 执 行 图 28-15 中 的 代码 ， 其 中 变量 tp 和 inp 指 向 图 28-7 所 创建 
的 新 的 插 己 、 而 非 服务 器 的 监听 插口 。 


switch 


case 


*/ 


tcp input.c 
(tp-»t state) ( epp 


If the state is LISTEN then ignore segment if it contains an RST. 
If the segment contains an ACK then it is bad and send an RST. 
If it does not contain a SYN then it is not interesting; drop it. 
Don't bother responding if the destination was a broadcast. 
Otherwise initialize tp-»rcv nxt, and tp-»irs, select an initial 
tp-»iss, and send a segment: 

«SEQ-ISS»«ACK-RCV NXT»2«CTL-SYN,ACK» 
Also initialize tp-»snd nxt to tp-»iss«1 and tp-»snd una to tp-»iss 
Fill in remote peer address fields if not previously specified. 
Enter SYN RECEIVED state, and process any other fields of this 
segment in this state. 


TCPS LISTEN:( 


struct mbuf *am; 
struct sockaddr in *sin; 


if (tiflags & TH RST) 
goto drop; 
if (tiflags & TH ACK) 
goto dropwithreset; 
if ((tiflags & TH SYN) == 0) 


goto drop: . 
tcp. input.c 


[828-15 tcp inputi&Z: 检测 监听 插口 上 是 否 收 到 了 SYN 


1. &JFRST, ACK A, 3ESYN 
473-478 如 果 接 收报 文 段 中 带 有 RST 标 志 ， 则 丢弃 它 。 如 果 带 有 ACK， 则 丢弃 它 并 发 送 
RST 作 为 响应 (建立 连接 的 最 初 的 SYN 报 文 段 是 少数 几 个 不 允许 携带 ACK 的 报 文 段 之 一 )。 如 采 
未 带 有 SYN， 则 丢弃 它 。case 子 句 的 后 续 代码 处 理 连接 处 于 LISTEN 状 态 时 收 到 了 SYN 的 状 
说。 新 的 连接 状态 等 于 SYN_RCVD。 

图 28-16 给 出 了 case 语 句 接 下 来 的 代码 。 
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490 


7 tcp input.c 
* RFC1122 4.2.3.10, p. 104: discard bcast/mcast SYN 
* in broadcast() should never return true on a received 

* packet with M, BCAST not set. 

*/ 

if (m->m_flags & (M_BCAST | M_MCAST) |I 
IN_MULTICAST (ti-»ti dst.s, addr)) 
goto drop; 


am - m get(M DONTWAIT, MT SONAME);  /* XXX */ 
if (am == NULL) 

goto drop; 
am-»m len = sizeof(struct sockaddr in); 


图 28-16 tcp input: 处 理 监 听 揪 口上 收 到 的 SYN 报 文 段 
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491 Sin = mtod(am, struct sockaddr, in *); 

492 Sin-»sin family - AF, INET; 

493 Ssin-»sin len = sizeof(*sin); 

494 sin-»sin,. addr = ti-»ti, src; 

495 sin-»sin, port = ti-»ti, sport; 

496 bzero((caddr t) sin-»sin zero, sizeof (sin-»sin zero)); 

497 laddr - inp-»inp, laddr; 

498 if (inp-»inp laddr.s, addr == INADDR, ANY) 

499 inp-»inp laddr = ti-»ti, dst; 

500 if (in pcbconnect(inp, am)) ( 

501 inp-»inp. laddr = laddr; 

502 (void) m free(am); 

503 goto drop; 

504 ) 

505 (void) m free(am); . 

tcp input.c 

图 28-16 (4%) 


2. 如 果 是 广播 报 文 段 或 多 播报 文 段 ， 则 丢弃 它 
479-486 如果 数据 报 被 发 送 到 广播 地 址 或 多 播 地 址 ， 则 丢弃 它 ，TCP 只 支持 点 到 点 的 应 用 。 
前 面 介 绍 过 ， 根 据 数据 帧 携带 的 目的 硬件 地 址 ，ether_input 置 位 M_BCAST 和 M_MCAST 标 
志 ，IN_MULTICAST 宏 可 判定 IP 地 址 是 否 为 D 类 地 址 。 
注释 引用 了 in_broadcast， 因 为 Net/1 代 码 ( 它 不 支持 多 播 ) 在 此 处 调用 了 这 个 
函数 ， 以 检测 目的 IP 地 址 是 否 为 广播 地 址 。Net/2 中 改 为 根据 目的 硬件 地 址 ， 通 过 
ether_input 设 定 M_BCAST 和 M_MCAST 标 志 。 
Net/3 只 测试 目的 硬件 地 址 是 否 为 广播 地 址 ， 而 且 不 调用 in_broadcast 测 试 目 
的 IP 地 址 是 否 为 广播 地 址 。 它 假定 除非 目的 硬件 地 址 是 广播 地 址 ， 否 则 ， 目 的 IP 地址 
绝 不 可 能 是 广播 地 址 ， 从 而 避免 调用 in_broadcast。 另 外 ， 如 果 Net/3 真 的 收 到 了 
一 个 数据 帧 ， 其 目的 硬件 地 址 为 单 播 地 址 ， 而 目的 IP 地 址 为 广播 地 址 ， 将 执行 图 28- 
16 中 的 代码 处 理 此 种 报 文 段 。 
目的 地 址 参数 IN_MULTICRAST 需 要 被 转换 为 主机 字 节 序 。 
3. 为 客户 端的 IP 地 址 和 端口 号 分 配 mbuf 
487-496 ”分 配 一 个 mbuf， 保 存 sockaddr_in 结 构 ， 其 中 带 有 客户 端的 IP 地 址 和 端口 号 。 
IP 地 址 从 IP 首 部 的 源 地 址 字段 中 复制 ， 端 口号 从 TCP 首 部 的 源 端口 号 字段 中 复制 。 这 个 结构 用 
于 把 服务 器 的 PCB 连 到 客户 ， 之 后 mbuf 被 释放 。 
注释 中 的 “XXX”， 是 因为 获取 mbuf 的 消耗 等 同 于 之 后 调用 in_pcbconnect 的 
消耗 。 不 过 此 处 的 代码 位 于 tcp_input 中 较 慢 的 一 条 执行 路 径 。 从 图 24-5 可 知 ， 不 
足 %2 的 接收 报 文 段 的 处 理 中 会 用 到 这 段 处 理 代 码 。 
4. 设 定 PCB 中 的 本 地 地 址 
497-499 ladqdqr 是 绑 定 在 插口 上 的 本 地 地 址 。 如 果 服 务 器 没有 为 插口 绑 定 一 个 确定 地 址 ( 正 
常情 况 下 )， 卫 首部 的 目的 地 址 将 成 为 PCB 中 的 本 地 地 址 。 注意 ， 不 管 数据 报 是 在 哪个 端口 收 
到 的 ， 都 将 保存 IP 首 部 中 的 目的 地 址 。 
注意 ，laddr 不 会 是 通 配 地 址 ， 因 为 图 28-7 中 的 代码 已 将 收 到 报 文 段 中 的 目的 IP 
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S. 填充 PCB 中 的 对 端 地 址 
500-505 调用 in_pcbconnect， 把 服务 器 的 PCB 与 客户 相连 ， 填 充 PCB 中 的 对 端 地 址 和 
对 端 端口 号 。 之 后 ， 释 放 mbuf。 

图 28-17 给 出 了 函数 下 一 部 分 的 代码 ， 结 束 case 语 名 的 处 理 。 


506 tp-»t template = tcp template(tp); tep_input.c 

507 if (tp->t_template == 0) { 

508 tp = tcp drop(tp, ENOBUFS); 

509 dropsocket = 0; /* socket is already gone */ 

510 goto drop; 

511 } 

512 if (optp) 

513 tcp dooptions(tp, optp, optlen, ti, 

514 &ts present, &ts val, &ts ecr); 

515 if (iss) 

516 tp-»iss = iss; 

517 else 

518 tp->iss = tcp iss; 

519 tcp iss += TCP. ISSINCR / 2; 

520 tp-»irs = ti-»ti seq; 

521 tcp sendseqinit(tp); 

522 tcp rcvseqinit (tp); 

523 tp-»t flags |= TF, ACKNOW; 

524 tp-»t state = TCPS SYN, RECEIVED; 

525 tp-»t timer[TCPT KEEP] = TCPTV.KEEP INIT; 

526 dropsocket - 0; /* committed to socket */ 

527 tcpstat.tcps accepts-e*; 

528 goto trimthenstep6; 

529 H . 
tcp input.c 


图 28-17 tcp input: 完成 LISTEN 状 态 下 收 到 SYN 报 文 段 的 处 理 


6. 分 配 并 初始 化 IP 和 TCP 首 部 模板 
506-511 调用 tcp_template 创 建 P 和 TCP 首 部 的 模板 。 图 28-7 中 调用 sonewconn 时 ， 为 
新 连接 分 配 了 PCB 和 TCP 控 制 块 ， 但 未 分 配 首 部 模板 。 

7. 处 理 所 有 的 TCP 选 项 
512-514 ”如 果 存 在 TCP 选 项 ， 则 调用 tcp_dooptions 进 行 处 理 。 图 28-8 中 曾 调 用 过 一 次 
tcp_dooptions， 但 只 处 理 非 LISTEN 状 态 时 的 TCP 选 项 。 现在， 插口 处 于 监听 状态 ，PCB 
中 的 对 端 地 址 已 填 和 信 (tcp_mss 函 数 中 会 用 到 对 端 地 址 )， 调 用 tcp_dooptions: 获取 到 达 
对 端的 路 由 ; 查看 对 端 主机 是 本 地 结 点 还 是 远 端 结 点 (选择 MSS 时 ， 需 考虑 到 对 端的 网 络 ID 和 
子 网 ID)。 

8. 初始 化 ISS 
515-519 通常 情况 下 ， 初 始 发 送 序号 复制 自 全 局 变量 tcp_iss， 之 后 增加 64 000 
(TCP_ISSINCR 除 以 2)。 如 果 局 部 变量 iss 非 零 ， 则 使 用 iss 取 代 tcp_iss， 初 始 化 连接 的 
发 送 序 号 。 

出 现 以 下 事件 序列 时 ， 会 用 到 iss: 

。 服 务 器 的 IP 地 址 为 128.1.2.3， 端 口号 为 27。 
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。IP 地 址 等 于 192.3.4.5 的 客户 与 前 述 服务 器 建立 了 连接 ， 客 户 端 口号 等 于 3000。 服 务 器 的 
插口 对 为 {128.1.2.3, 27, 192.3.4.5, 3000}. 

。 服 务 器 主动 关闭 了 连接 。， 上 述 插 口 对 的 状态 转移 到 TIME_WAIT。 连 接 处 于 这 种 状态 时 ， 
最 后 收 到 的 序号 保存 在 TCP 控 制 块 中 。 假 设 序号 等 于 100 000。 

。 连 接 离开 TIME_WAIT 状 态 之 前 ， 收 到 来 自 于 同一 客户 主机 、 同 一 端口 号 (192.3.4.5， 
3000) 的 新 的 SYN，TCP 寻 找 处 于 TIME_WAIT 状 态 的 连接 所 对 应 的 PCB， 而 不 是 监听 服 
务 器 的 PCB。 假 定 新 SYN 报 文 段 的 序号 等 于 200 000. 

。 因 为 连接 状态 不 等 于 LISTEN， 所 以 将 不 执行 刚 讨 论 过 的 图 28-17 中 的 代码 ， 而 是 执行 图 
28-28 中 的 代码 。 我 们 将 看 到 ， 共 中 包含 了 下 列 处 理 逻 辑 : 如 果 新 SYN 报 文 段 的 序号 
(200 000) 大 于 客户 最 后 发 来 的 序号 (100 000, 852: (1) 局 部 变量 iss 等 于 100 000 加 上 
128 000; (2) 处 于 TIME_WAIT 状 态 的 连接 被 完全 关闭 (PCB 和 TCP 控 制 块 被 删除 );，(3) 控 
制 跳 转 到 findpcb( 图 28-5)。 

。 寻找 服务 器 监听 插口 的 PCB( 假 定 监听 服务 器 还 在 运行 )， 执 行 本 节 中 介绍 的 代码 。 图 28- 
17 中 的 代码 将 使 用 局 部 变量 iss( 现 在 等 于 228 000) 初 始 化 新 连接 的 tcp_iss。 

RFC 1122 中 定义 的 这 种 处 理 逻 辑 ， 允 许 同一 个 客户 和 服务 器 重用 同样 的 插口 连接 对 ， 只 
要 服务 器 主动 关闭 原 有 连接 。 它 也 解释 了 为 什么 只 要 有 进程 调用 connect， 全 局 变量 
tcp_iss 就 递增 64 000( 图 30-4): 为 了 确保 在 某 个 客户 不 断 地 重建 与 同一 个 服务 器 的 连接 的 情 
况 下 ， 即 使 前 一 次 连接 上 没有 传输 数据 ， 甚 至 300 ms 定时 器 都 未 超时 (定时 器 超时 处 理 代码 会 
增加 tcp_iss)， 新 建 连接 仍 可 以 使 用 较 大 的 ISS。 

9. 初始 化 控制 块 中 的 序号 变量 
520-522 图 28-17 中 ,. 初始 接收 序号 复制 自 SYN 报 文 段 中 的 序号 字段 (irs)。 下 面 两 个 宏 初 
始 化 了 TCP 控 制 块 中 的 相关 变量 。 


#define tcp_rcvseqinit (tp) ^ 
(tp)-»rcv adv = (tp)-»rcv nxt = (tp)->irs + 1 


#define tcp_sendseqinit (tp) \ 
(tp)-»snd una = (tp)-»snd nxt = (tp)-»snd max = (tp)-»snd up = \ 


(tp)-»iss 

因为 SYN 占 据 一 个 序号 ， 所 以 第 一 个 宏 表 达 式 需 加 1。 

10. 确认 SYN 并 更 新 状态 
523-525 因为 对 于 SYN 的 确认 必须 立即 发 送 ， 所 以 置 位 TF_ACKNOW 标 志 。 连 接 状 态 转 移 到 
SYN_RCVD， 和 连接 建立 定时 器 设 为 75 秒 (TCPTV_KEEP_INIT)。 因 为 TF_ACKNOW 置 位 ， 涪 
数 结束 时 将 调用 tcp_output。 从 图 24-16 可 知 ， 此 种 tcp_outflags 会 导致 发 送 携带 SYN 
和 ACK 的 报 文 段 。 
526-528 ”现在 ，TCP 结 束 了 从 图 28-7 开 始 的 新 插口 的 创建 ，drop 插 口 标志 被 清除 。 控 制 跳 
转 到 trimthenstep6 处 ， 完 成 SYN 报 文 段 的 处 理 。 前 面 介绍 过 ，SYN 报 文 段 能 够 携带 数据 ， 
尽管 只 有 等 连接 进入 ESTABLISHED 状 态 后 ， 数 据 才 会 被 提交 给 应 用 程序 。 


28.6.2 完成 主动 打开 
图 28-18 给 出 了 连接 进入 SYN_SENT 状 态 后 ， 处 理 代 码 的 第 一 部 分 。TCP 等 待 接收 SYN。 
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530 7 tcp input.c 
531 * If the state is SYN SENT: 

532 * if seg contains an ACK, but not for our SYN, drop the input. 
533 * if seg contains an RST, then drop the connection. 

534 * if seg does not contain SYN, then drop it. 

535 * Otherwise this is an acceptable SYN segment 

536 * initialize tp-»rcv nxt and tp-»irs 

537 * if seg contains ack then advance tp-»snd una 

538 * if SYN has been acked change to ESTABLISHED else SYN RCVD state 
539 * arrange for segment to be acked (eventually) 

540 * continue processing rest of data/controls, beginning with URG 
541 */ 

542 case TCPS, SYN SENT: 

543 if ((tiflags & TH ACK) && 

544 (SEQ LEQ(ti-»ti ack, tp-»iss) | 

545 SEQ GT(ti-»ti ack, tp-»snd max))) 

546 goto dropwithreset; 

547 if (tiflags & TH RST) ( 

548 if (tiflags & TH  ACK) 

549 tp = tcp drop(tp, ECONNREFUSED); 

550 goto drop; 

551 } 

552 if ((tiflags & TH SYN) == 0) 

553 goto drop; 





tcp input.c 
图 28-18 tcp input K$: 判定 收 到 的 SYN 是 否 是 所 需 的 响应 


1. 验证 收 到 的 ACK 
530-546 当 应 用 进程 主动 打开 ，TCP 发 送 SYN 时 ， 从 


图 30-4 可 知 ， 连 接 的 iss 将 等 于 全 局 变量 tcp_iss， 安 SYN 366 36 


tcp_sendseqinit( 前 一 节 结 尾 给 出 了 定义 ) 被 执行 。 A + 
假设 ISS 等 于 365， 图 28-19 给 出 了 tcp_output 发 送 SYN 
2X py bm He snd una -365  snd nxt -366 
后 的 发 送 序 号 变量 。 snd up -365 snd_max=366 
"nitj - H4 A zl B5 
ccp-sendseqinit 初 始 化 图 各 19 中 的 47 变量 为 图 28-19 ISS 等 于 365 的 SYN 发 送 后 
365， 接 着 图 26-31 中 的 代码 在 发 送 SYN 之 后 ， 把 其 中 两 的 发 送 序号 变量 


个 增 至 366。 因 此 ， 如 果 图 28-18 中 的 接收 报 文 段 包含 
ACK， 并 有 确认 字段 小 于 等 于 iss(365)， 或 者 大 于 snd_max(366)，ACK 无 效 ， 丢 弃 报 文 自 
并 发 送 RST 作 为 响应 。 注 意 ， 连 接 处 于 SYN_SENT 状 态 时 ， 收 到 的 报 文 段 中 无 需 携 带 ACK。 
它 可 以 只 包括 SYN， 这 种 情况 称 为 同时 打开 (simultaneous open)( 图 24-15)。 

2. 处 理 并 丢弃 RST 报 文 段 
547-551 ”如 果 接 收报 文 段 中 带 有 RST， 则 丢弃 它 。 但 首先 应 查看 ACK 标 志 ， 因 为 如 果 报 文 
段 同 时 携带 了 有 效 的 ACK( 已 验证 过 ) 和 RST， 则 说 明 对 端 拒绝 本 次 连接 请 求 ， 通 常 是 因为 服务 
器 进程 未 运行 。 这 种 情况 下 ，tcp_drop 设 定 插口 的 so_error 变 量 ， 并 向 调用 connect 的 
应 用 进程 返回 差错 。 

3. 判定 SYN 标 志 是 否 置 位 
552-553 如 果 收 到 报 文 段 中 的 SYN 标 志 未 置 位 ， 则 丢弃 它 。 

这 个 case 语 名 的 其 余 代 码 用 于 处 理 本 地 发 送 连接 请 求 后 ， 收 到 对 端 响应 的 SYN 报 文 段 
(及 可 选 的 ACK) 的 情况 。 图 28-20 给 出 了 tcp_input 下 一 部 分 的 代码 ， 继 续 处 理 SYN。 
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- - tcp input.c 
554 if (tiflags & TH ACK) { 
555 tp-»snd una - ti-»ti ack; 
556 if (SEQ LT(tp-»snd nxt, tp-»snd una)) 
557 tp-»snd nxt = tp-»snd una; 
558 H 
559 tp-»t timer[TCPT REXMT]) = 0; 
560 tp-»irs = ti-»ti,seq; 
561 tcp.rcvseqinit (tp); 
562 tp-»t flags 1= TF. ACKNOW; 
563 if (tiflags & TH ACK && SEQ GT(tp-»snd una, tp-»iss)) ( 
564 tcpstat.tcps connects4*; 
565 Soisconnected(so); 
566 tp-»t state = TCPS ESTABLISHED; 
567 /* Do window scaling on this connection? */ 
568 if ((tp-»t flags & (TF RCVD SCALE | TF REQ SCALE)) == 
569 (TF RCVD SCALE | TF REQ SCALE)) ( 
570 tp-»snd scale = tp-»requested s scale; 
571 tp-»rcv scale = tp-»request r. scale; 
572 } 
573 (void) tcp reass(tp, (struct tcpiphdr *) O, 
574 (struct mbuf *) 0); 
575 /* 
576 * if we didn't have to retransmit the SYN, 
577 * use its rtt as our initial srtt & rtt var. 
578 */ 
579 if (tp-»t rtt) 
580 tcp xmit timer(tp, tp-»t rtt); 
581 ) eise 
582 tp-»t state = TCPS, SYN RECEIVED; . 
tcp input.c 


图 28-20 tcp input: 发 送 连 接 请 求 后 ， 收 到 对 端 响应 的 SYN 


4. 处 理 ACK 
554-558 如 果 报 文 段 中 有 ACK， 令 snd_una 等 于 报 文 段 的 确认 字段 。 以 图 28-19 为 例 ， 
snd_una 应 更 新 为 366， 因 为 确认 字段 惟一 有 效 的 值 就 是 366。 如 果 sna_nxt 小 于 
snd_una( 在 图 28-19 的 例子 中 不 可 能 发 生 ),， 令 snd_nxt 等 于 snd_una。 
5. 关闭 连接 建立 定时 器 
559 连接 建立 定时 器 被 关闭 。 
此 处 代码 有 错误 。 连 接 建立 定时 器 只 有 在 ACK 标 志 置 位 时 才能 被 关闭 ， 因 为 收 到 一 
个 不 带 ACK 的 SYN 报 文 段 ， 只 是 说 明 连 接 双 方 同 时 打开 ， 而 不 意味 着 对 端 已 收 到 了 SYN。 
6. 初始 化 接收 序号 
560-562 初始 接收 序号 从 接收 报 文 段 的 序号 字段 中 复制 。tcp_rcvseqinit 宏 (上 一 节 结 
束 时 给 出 了 定义 ) 初 始 化 rcv_adv 和 Lrcv_nxt 为 接收 序号 加 1。 置 位 TF_ACKNOW 标 志 ， 从 而 
在 函数 结尾 处 调用 tcp_output， 发 送 报 文 段 携带 的 确认 字段 应 等 于 rcv_nxt( 图 26-27)， 确 
认 刚 收 到 的 SYN。 
563-564 如 果 接 收报 文 段 带 有 ACK， 并 且 snd_una 大 于 连接 的 ISS， 主 动 打 开 处 理 完毕 ， 
连接 进入 ESTABLISHED 状 态 。 
第 二 个 测试 条 件 其 实 是 多 余 的 。 图 28-20 起 始 处 ， 如 果 ACK 标 志 置 位 ，snd_una 


将 等 于 接收 报 文 段 的 确认 字段 值 。 另 外 ， 图 28-18 中 紧 跟 着 case 语 和 句 的 1f 语 和 铝 验 证 了 
收 到 的 确认 字段 大 于 ISS。 所 以 ， 此 处 只 要 ACK 置 位 ， 就 可 以 确保 snd_una 大 于 ISS。 
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7. 连接 建立 
565-566 soisconnected 设 定 插口 进入 连接 状态 ，TCP 连 接 的 状态 转移 到 
ESTABLISHED, 
8. 查看 窗口 大 小 选项 
567-572 如 果 TCP 在 本 地 SYN 中 加 入 窗口 大 小 选项 ， 并 且 收 到 的 SYN 中 也 包含 了 这 一 选项 ， 
使 用 窗口 缩放 功能 ， 设 定 snd_scale 和 rcv_scale。 因 为 cp_newtcpcb 初 始 化 TCP 控 制 
块 为 0， 所 以 ， 如 果 不 使 用 窗口 大 小 选项 ， 这 两 个 变量 的 默认 值 为 0。 
9. 向 应 用 进程 提交 队列 中 的 数据 
573-574 由 于 数据 可 能 在 连接 未 建立 之 前 到 达 ， 调 用 cp_reass 把 数据 放 人 接收 缓存 ， 第 
二 个 参数 为 空 。 
测试 条 件 其 实 不 必要 的 。 因 为 TCP 刚 收 到 带 有 ACK 的 SYN 报 文 段 ， 状 态 从 
SYN_SENT 转 移 到 ESTABLISHED。 即 使 有 数据 出 现在 SYN 中 ， 也 会 被 暂时 搁置 ， 直 
到 函数 快 结束 ， 控 制 转 到 dodata 标 注 时 才 会 被 处 理 。 如 果 TCP 收 到 不 带 ACK 的 
SYN( 同 时 打开 )， 即 使 报 文 段 携带 数据 ， 也 会 被 暂时 搁置 ， 等 到 收 到 了 ACK， 连 接 从 
SYN_RCVD 和 转移 到 ESTABLISHED 之 后 ， 才 会 被 处 理 。 
尽管 SYN 中 可 以 携带 数据 ， 并 且 Net/3 能 够 正确 处 理 这 样 的 报 文 段 ， 但 NeU3 自 己 
不 会 产生 这 样 的 报 文 段 。 
10. 更 新 RTT 估 计 器 值 
575-580 ”如 果 确 认 的 SYN 正 被 计时 ，tcp_xmit_timer 将 根据 得 到 的 对 SYN 报 文 段 的 测 
量 值 初始 化 RTT 估 计 器 值 。 
TCP 在 此 处 忽略 收 到 的 时 间 蕉 选项 ， 只 查看 EL_Ttt 计 数 器 。TCP 主 动 打开 时 ， 在 
第 一 个 SYN 中 加 入 时 间 羽 选项 (图 26-24)， 如 果 对 端 也 同意 采用 时 间 戳 ， 就 会 在 它 响 
应 的 SYN 中 回应 收 到 的 时 间 蕉 (参见 图 28-10，Net/3 在 SYN 中 回应 收 到 的 时 间 蕉 )。 因 
此 ，TCP 在 此 处 可 以 使 用 收 到 的 时 间 蕉 ， 而 不 用 上 _rtt， 但 因为 两 者 的 精度 相同 
(500ms)， 在 这 一 点 上 时 间 堆 并 无 优势 可 言 。 使 用 时 间 堆 ,而 非 t_rtt 计 数 器 的 真正 
好 处 在 于 高 速 网 络 中 同时 发 送 大 量 数据 时 ， 能 提供 更 多 的 RTT 测 量 值 和 更 好 的 估计 器 
值 (希望 如 此 )。 


11. 同时 打开 
581-582 ”如 果 TCP 在 SYN_SENT 状 态 收 到 不 带 ACK 的 SYN， 则 称 为 同时 打开 ， 连 接 转移 到 
SYN_RCVD 状 态 。 

图 28-21 给 出 了 函数 的 下 一 部 分 代码 ， 处 理 SYN 中 可 能 携带 的 数据 。 图 28-17 结 尾 处 ， 代 码 
跳 转 至 trimthenstep6 标 注 处 ， 这 里 也 有 类 似 的 情况 。 





583 trimthenstep6: tcp_input.c 
584 /* 

585 * Advance ti-»ti seq to correspond to first data byte. 

586 * If data, trim to stay within window, 

587 * dropping FIN if necessary. 

588 */ 


图 28-21 tcp_input 函 数 : 接收 SYN 的 通用 处 理 
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589 ti-»ti seq«s; 

590 if (ti-»ti len » tp-»rcv wnd) ( 

591 todrop = ti-»ti len - tp-»rcv. wnd; 
592 m adj(m, -todrop); 

593 ti-»ti len = tp-»rcv, wnd; 

594 tiflags &- "TH FIN; 

595 tcpstat.tcps rcvpackafterwine*; 
596 tcpstat.tcps rcvbyteafterwin «- todrop; 
597 ) 

598 tp-»snd,wll = ti-»ti seq - 1; 

599 tp-»rcv up = ti-»ti seq; 

600 goto step6; 

601 } 


tcp_input.c 
图 28-21 (£3) 


584-589 ” 报 文 段 序 号 加 1， 以 计 入 SYN。 如 果 SYN 带 有 数据 ，ti_seq 现 在 应 等 于 数据 第 一 
个 字 节 的 序号 。 

12. 丢弃 落 在 接收 窗口 外 的 数据 
590-597 ti_len 等 于 报 文 段 中 的 数据 字 节 数 。 如 果 它 大 于 接收 窗口 ， 超 出 部 分 的 数据 
(ti_len 减 去 rcv_wnd) 将 被 nm_adj 丢 弃 。 函 数 参 数 为 负 值 ， 所 以 ， 将 从 mbuf 链 尾部 起 逆向 
删除 数据 (图 2-20)。 更 新 ti_len， 等 于 数据 删除 后 mbuf 中 剩余 的 数据 量 。 清 除 FIN 标 志 ， 这 
是 因为 FIN 可 能 跟 在 最 后 一 个 数据 字 节 之 后 ， 落 在 接收 窗口 外 而 被 丢 充 。 

如 果 SYN 是 对 本 地 连接 请 求 的 响应 ， 且 携带 的 数据 过 多 ， 则 说 明 对 篇 收 到 的 

SYN 报 文 段 中 带 有 窗口 通告 ,但 对 端 忽 略 了 通告 的 窗口 大 小 ， 并 禁止 不 规范 的 行为 。 

但 如 果 主 动 打 开 的 SYN 报 文 段 中 带 有 大 量 数据 ， 则 说 明 对 端 还 未 收 到 窗口 通告 ， 所 

以 不 得 不 猜测 SYN 中 能 够 携带 多 少数 据 。 

13. 强制 更 新 窗口 变量 
598-599 snd_w11 等 于 接收 序号 减 1。 从 图 29-15 中 可 看 到 ， 这 将 强制 更 新 3 个 窗口 变量 : 
snd_wnd、snd_wl1 和 snd_w12。 接 收 紧急 指针 (rcv_up) 等 于 接收 序号 。 控 制 跳 转 到 标注 
step6 处 ， 与 RFC 793 定 义 的 步 又 相对 应 ， 我 们 将 在 图 29-15 中 详细 讨论 。 


28.7 PAWS: 防止 序号 回 绕 


图 28-22 给 出 了 tcp_input 下 一 部 分 的 代码 ， 处 理 可 能 出 现 的 序号 回 绕 : RFC 1323 中 定 
义 的 PAWS 算 法 。 请 回想 一 下 我 们 在 26.6 节 关于 时 间 惟 的 讨论 。 





z0 7. tcp input.c 
603 * States other than LISTEN or SYN SENT. 

604 * First check timestamp, if present. 

605 * Then check that at least some bytes of segment are within 
606 * receive window. If segment begins before rcv. nxt, 

607 * drop leading data (and SYN); if nothing left, just ack. 

608 * 

609 * RFC 1323 PAWS: If we have a timestamp reply on this segment 
610 * and it's less than ts, recent, drop it. 

611 */ 

612 if (ts present && (tiflags & TH RST) == 0 && tp-»ts recent && 


图 28-22 tcp_input 函数 : 处 理 时 间或 选 项 
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613 TSTMP. LT(ts val, tp-»ts recent)) ( 

614 /* Check to see if ts recent is over'24 days old. */ 

615 if ((int) (tcp now - tp-»ts, recent age) > TCP PAWS IDLE) ( 

616 /* 

617 * Invalidate ts recent. If this segment updates 

618 * ts recent, the age will be reset later and ts, recent 

619 * will get a valid value. If it does not, setting 

620 * ts recent to zero will at least satisfy the 

621 * requirement that zero be placed in the timestamp 

622 * echo reply when ts recent isn't valid. The 

623 * age isn't reset until we get a valid ts recent 

624 * because we don't want out-of-order segments to be 

625 * dropped when ts recent is old. 

626 */ 

627 tp-»ts recent = 0; 

628 ) else { 

629 tcpstat.tcps, rcvduppack««; 

630 tcpstat.tcps rcvdupbyte += ti-»ti len; 

631 tcpstat.tcps pawsdrop-**; 

632 goto dropafterack; 

633 } 

634 } . 

tcp input.c 

图 28-22 (£80 


1. 基本 PAWS 测 试 
602-613 如 果 存 在 时 间 惟 ， 则 调用 tcp_dooptions 设 定 ts_present。 如 果 下 列 3 个 条 件 
全 真 ， 则 丢弃 报 文 段 : 

1) RST 标 志 未 置 位 (参见 习题 28.8)。 

2) TCP 曾 收 到 过 对 端 发 送 的 有 效 的 时 间 截 (ts_recent 非 零 ); 并 且 

3) 当前 报 文 段 中 的 时 间 蕉 (Cs_val) 小 于 原先 收 到 的 时 间 戳 。 

PAWS 算 法 基于 这 样 的 假定 : 对 于 高 速 连接 ，32 bit 时 间 惟 值 回 绕 的 速度 远 小 于 32 bit 序 号 
回 绕 的 速度 。 习 题 28.6 说 明 ， 即 使 是 最 高 的 时 钟 计 数 器 更 新 频率 (每 毫秒 加 1)， 时 间 玲 的 符号 
位 也 要 24 天 才 会 回 绕 一 次 。 而 在 和 于 兆 级 网 络 中 ， 序 号 可 能 17 秒 就 回 绕 一 次 ( 卷 1 的 24.3 节 )。 
此 ， 如 果 报 文 段 时 间 惟 小 于 从 同一 个 连接 收 到 的 最 近 一 次 的 时 间 戳 ， 说 明 是 个 重复 报 文 段 ， 
应 被 丢弃 (还 需 进行 后 续 的 时 间 蕉 过 期 铀 试 )。 尽 管 因为 序号 已 过 时 ，FcP_input 也 可 将 其 丢 
弃 ， 但 PAWS 算 法 能 够 有 效 地 处 理 序号 回 绕 速 率 很 高 的 高 速 网 。 

注意 ，PAWS 算 法 是 对 称 的 : 它 不 仅 丢 弃 重 复 的 数据 报 文 段 ， 也 丢弃 重复 的 ACK。PAWS 
处 理 所 有 收 到 的 报 文 段 ， 前 面 介绍 过 ， 首 部 预测 代码 也 采用 了 PAWS 测 试 (图 28-11)。 

2. 检查 过 期 时 间 稚 
614-627 尽管 可 能 性 不 大 ，PAWS 测 试 还 是 会 失败 ， 因 为 连接 有 可 能 长 时 间 空 闲 。 收 到 的 报 
文 段 并 非 重复 报 文 月 ， 但 连接 空闲 时 间 过 长 ， 造 成 时 间 惟 值 回 绕 ， 从 而 小 于 从 同一 个 连接 收 
到 的 最 近 一 次 的 时 间 蕉 。 

无 论 何 时 ，ts_recent 保 存 接收 报 文 段 中 的 时 间 戳 值 ， ts_recent_age 记 录 当 前 时 间 
(tcp_now)。 如 果 ts_recent 的 最 后 一 次 更 新 发 生 在 24 天 之 前 ， 则 将 其 清 零 ， 不 是 一 个 有 效 
的 时 间 惟 值 。 常 量 TCP_PAWS_IDLE 定 义 为 (24 x 24 x 60 x 60 x 2)， 最 后 的 乘 数 2 指 每 秒 钟 2 个 
滴答 。 这 种 情况 下 ， 不 丢弃 接收 报 文 股 ， 因 为 问题 是 时 间 堆 过期， 而 非 重 复 报 文 段 。 参 见习 
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题 28.6 和 28.7。 
图 28-23 举 例 说 明了 时 间 惟 过 期 问题 。 连 接 左 侧 的 系统 是 一 个 非 NeV3 的 TCP 实 现 ， 以 RFC 
1323 中 规定 的 最 高 速度 ， 每 毫秒 更 新 一 次 时 钟 。 连 接 右 侧 是 NeV3 实 现 。 


数据 ， 时 间 截 =i 
IF [B RE S 1 ———————————————— — MI ztg val-1 
ACK ts_recent_age = tcp_now =N 





连接 空闲 25 大 = 
4 320 000 滴答 
时 间 截 = 2 147 483 649 | icis oot 
hing 2 147 483 650 USE 
" dg. MEE 2 160000 001 ts. val = 2160000001 
时 间 戳 =2 160 000 001 " «ts, recent -1 


tcp. now = N + 4320 000 


[828-23 过 期 时 间 改 举例 


第 一 个 数据 报 文 段 中 携带 的 时 间 发 值 等 于 1， 所 以 ts_recent 等 于 1、ts_recent_age 等 
于 当前 时 间 (tcp_now)， 如 图 28-11 和 图 28-35 所 示 。 连 接 空 闪 25 天 ， 在 此 期 间 tcp_now 增 加 了 
4 320 000 (25 x 24 x 60 x 60 x 1000)， 对 端的 时 间 戳 值 增加 了 2 160 000 000 (25 x 24 x 60 x 60 x 
1000)， 时 间 惟 值 的 符号 位 改变 ， 即 2 147 483 649 大 于 1， 而 2 147 483 650 小 于 1( 回 想 图 24-26)。 
因此 ， 当 收 到 的 数据 报 文 段 中 的 时 间 改 等 于 2 160 000 001 时 ， 调 用 TSTMP_LT 宏 进行 比较 ， 
收 到 的 时 间 惟 小 于 ts_recent(H)，、PAWS 测 试 失败 。 但 因为 tcp_now 减 去 ts_recent_age 
大 于 24 天 ， 说 明 造 成 失败 的 原因 是 连接 空 闪 时 间 过 长 ， 报 文 段 被 接受 。 

3. 丢弃 重复 报 文 段 
628-633 ”如 果 PAWS 算 法 测试 说 明 收 到 的 是 一 个 重复 报 文 段 ， 确 认 之 后 丢弃 该 报 文 段 (所 有 
重复 报 文 段 都 必须 被 确认 )， 不 更 新 本 地 时 间 戳 变量 。 

图 24-5 中 ，tcp_pawsdrop (22) 远 小 于 tcps_rcvdauppack (46 953)。 这 可 能 
是 因为 目前 只 有 很 少 的 系统 支持 时 间 蕉 ， 导 致 绝 大 多 数 重复 报 文 段 直到 TCP 输 出 处 理 
中 才 被 发 现 和 和 去 并， 而 非 PAWS。 


28.8 ”裁剪 报 文 段 使 数据 在 窗口 内 


本 节 讨 论 如 何 调整 收 到 的 报 文 段 ， 确 保 它 只 携带 能 够 放 入 接收 窗口 内 的 数据 : 

。 丢 弃 接 收报 文 段 起 始 处 的 重复 数据 并 且 

。 从 报 文 段 尾部 起 ， 丢 弃 超 出 接收 窗口 的 数据 。 

从 而 只 剩 下 可 放 入 接收 窗口 的 新 数据 。 图 28-24 给 出 的 代码 ， 用 于 判定 报 文 段 起 始 处 是 否 
存在 重复 数据 。 

1. 查看 报 文 段 前 部 是 否 存在 重复 数据 
635-636 ”如 果 接 收报 文 段 的 起 始 序 号 (ti_seq) 小 于 等 待 接收 的 下 一 序号 (rcv_nxt)， 则 


£284 TCP 的 输入 763 


todrop 大 于 0， 报 文 段 前 部 有 重复 数据 。 这 些 数据 己 被 确认 并 提交 给 应 用 进程 (图 24-18)。 





635 todrop = tp-»rcv nxt - ti-»ti seq; Icp-input.c 
636 if (todrop » 0) ( 
637 if (tiflags & TH SYN) ( 
638 tiflags &- ^TH SYN; 
639 ti-»ti, seq-e«; 
640 if (ti-»ti urp » 1) 
641 ti-»ti urp--; 
642 else 
643 tiflags &- ^TH URG; 
644 todrop--; 
645 ) 
tep input.c 


图 28-24 tcp input: 查看 报 文 段 起 始 处 的 重复 数据 


2. 丢弃 重复 SYN 
637-645 如 果 SYN 标 志 置 位 ， 它 必然 指向 报 文 段 的 第 一 个 数据 序号 ， 现 已 知 是 重复 数据 。 
清除 SYN， 报 文 段 的 起 始 序号 加 1， 以 越过 重复 的 SYN。 此 外 ， 如 果 接 收报 文 段 中 的 紧急 指针 
大 于 1 (ci_urp)， 则 必须 将 其 减 1， 因 为 紧急 数据 偏 移 量 以 报 文 段 起 始 序号 为 基准 。 如 果 紧 急 
指针 等 于 0 或 者 1， 则 不 做 处 理 ， 为 防止 出 现 等 于 1 的 情况 ， 清 除 URG 标 志 。 最 后 ，todrop 减 
1( 因 为 SYN 占 用 一 个 序号 )。 

图 28-25 继 续 处 理 报 文 段 前 部 的 重复 数据 。 





646 if (todrop >= ti-»ti len) ( tep_input.c 
647 tepstat.tcps_rcvduppack++; 

648 tcpstat.tcps rcvdupbyte += ti->ti_len; 

649 /* 

650 * If segment is just one to the left of the window, 
651 * check two special cases: 

652 * 1. Don't toss RST in response to 4.2-style keepalive. 
653 * 2. If the only thing to drop is a FIN, we can drop 
654 * it, but check the ACK or we will get into FIN 
655 * wars if our FINs crossed (both CLOSING). 

656 * In either case, send ACK to resynchronize, 

657 * but keep on processing for RST or ACK. 

658 */ 

659 if ((tiflags & TH FIN && todrop == ti-»ti len + 1) 
660 ) ( 

661 todrop - ti-»ti len; 

662 tiflags &- ^TH FIN; 

663 tp-»t flags |= TF. ACKNOW; 

664 ) else ( 

665 /* 

666 * Handle the case when a bound socket connects 
667 * to itself. Allow packets with a SYN and 

668 * an ACK to continue with the processing. 

669 */ 

670 if (todrop !- 0 || (tiflags & TH ACK) == 0) 

671 goto dropafterack; ` 

672 } 

673 } else { 

674 tcpstat.tcps rcvpartduppack-4-*; 

675 tcpstat.tcps rcvpartdupbyte += todrop; 


图 28-25 tcp_input 畏 数 : 处 理 完全 重复 的 报 文 段 


764 TCP/IP;iE& 2: 实现 


676 ) 

677 m adj(m, todrop); 

678 ti-»ti seq «- todrop; 
679 ti-»ti, len -- todrop; 
680 if (ti-»ti urp » todrop) 
681 ti-»ti urp -- todrop; 
682 eise ( 

683 tiflags &= ^TH URG; 
684 ti-»ti urp - 0; 

685 } 

686 ) 


tcp input.c 
图 28-25 (£3) 


3. 判定 报 文 段 数据 是 否 完全 重复 
646-648 如果 报 文 段 前 部 重复 的 数据 字 节 数 大 于 等 于 报 文 段 大 小 ， 则 是 一 个 完全 重复 的 报 
文 段 。 

4. 判定 重复 FIN 
649-663 接 下 来 测试 FIN 是 否 重复 ， 图 28-26 举 例 说 明了 这 一 情况 。 


1 2 3 4 5 6 7 8 9 FIN 
TCP 己 确认 并 提交 给 插口 居 的 数据 序 吃 


! 


HU GEBR| ci lens4 FIN 标志 置 位 rcv nxt-1l 
Toe Hog 





人 


ti. seq-6 


图 28-26 举例 : 带 有 FIN 标 志 的 重复 报 文 段 


图 28-26 的 例子 中 ，todrop 等 于 5， 大 于 等 于 ti_1en(4)。 因 为 FIN 置 位 ， 并 且 todrop 等 
于 ti_1len 加 1， 所 以 清除 FIN 标 志 ，todrop 重 设 为 4， 置 位 TF_ACKNOW， 函 数 结束 时 立即 发 
送 ACK。 这 个 例子 也 适用 于 其 他 报 文 段 ， 如 果 ti_seq 加 上 ti_len 等 于 10。 
代码 的 注释 提 到 了 4.2BSD 实 现 中 的 保 活 定时 器 ，Net/3 省 略 了 相关 处 理 ( 许 语 揣 中 
的 另 一 项 测试 )。 
5. 生成 重复 ACK 
664-672 如 果 todrop 非 零 ( 报 文 段 携带 的 全 部 是 重复 数据 )， 或 者 ACK 标 志 未 置 位 ， 则 丢弃 
报 文 段 ，. 调 用 dropafterack 生 成 ACK。 出 现 这 种 情况 ， 一 般 是 因为 对 端 未 收 到 ACK， 导 致 
报 文 段 重 发 。TCP 生 成 新 的 ACK。 
6. 处 理 同时 打开 或 半 连 接 
664-672 代码 还 处 理 同时 打开 ， 以 及 插口 与 自己 建立 连接 的 情况 ， 将 在 下 一 节 中 详细 讨论 。 
如 果 todrop 等 于 0( 完 全 重复 报 文 段 中 不 包含 数据 )， 且 ACK 标 志 置 位 ， 则 继续 下 一 步 的 处 
理 。 
it 语 向 是 4.4BSD 版 中 新 加 的 。 早 期 的 基于 Berkeley 的 系统 只 是 简单 地 跳 转 到 
dropafterack， 即 不 处 理 同 时 打开 ， 也 不 处 理 与 自己 建立 连接 的 情况 。 
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即使 做 了 改进 ， 这 段 代码 仍 有 错误 ， 我 们 在 本 节 结 束 时 将 谈 到 这 一 点 。 


7. 收 到 部 分 重复 报 文 段 时 ， 更 新 统计 值 
673-676 当 toqrop 小 于 报 文 段 长 度 时 ， 执 行 else 语 句 : 报 文 段 携带 数据 中 只 有 部 分 重 
复 。 

8. 删除 重复 数据 ， 更 新 紧急 指针 
677-685 调用 m_aGj， 从 mbuf 链 的 首部 开始 删除 重复 数据 ， 并 相应 地 调整 起 始 序 号 和 长 度 。 
如 果 紧 急 指针 指向 的 数据 仍 在 mbuf 中 ， 也 需 做 相应 的 调整 。 否 则 ， 紧 急 指 针 清 零 ， 并 清除 
URG 标 志 。 

图 28-27 给 出 函 数 下 一 部 分 的 代码 ， 处 理应 用 进程 终止 后 到 达 的 数据 。 


687 7 tcp input.c 
688 * If new data is received on a connection after the 
689 * user processes are gone, then RST the other end. 
690 */ 
691 if ((so-»so state & SS, NOFDREF) && 
692 tp-»t state > TCPS CLOSE WAIT && ti-»ti len) ( 
693 tp - tcp close(tp); 
694 tcpstat.tcps rcvafterclose-s«; 
695 goto dropwithreset; 
696 ) 
cp input.c 


图 28-27 tcp inputHZE: 处 理应 用 进程 终止 后 到 达 的 数据 


687-696 ”如果 找 不 到 播 口 的 描述 符 ， 说 明 应 用 进程 已 关闭 了 连接 (连接 状态 等 于 图 24-16 中 
大 于 CLOSE_WAIT 的 5 个 状态 中 的 任何 一 个 )， 若 接收 报 文 段 中 有 数据 ， 则 连接 被 关闭 。 报 文 
段 被 丢弃 ， 输 出 RST 做 为 响应 。 

因为 TCP 支 持 半 关闭 功能 ， 如 果 应 用 进程 意外 终止 (也 许 被 某 个 信号 量 终止 )， 做 为 进程 终 
止 的 一 部 分 ， 内 核 将 关闭 所 有 打开 的 描述 符 ，TCP 将 发 送 FIN。 连 接 转移 到 FIN_WAIT_1 状 态 。 
因为 FIN 的 接收 者 无 法 知道 对 端 执行 的 是 完全 关闭 ， 还 是 半 关 闭 。 如果 它 假定 是 半 关 闭 ， 并 继 
续 发 送 数据 ， 那 么 将 收 到 图 28-27 中 发 送 的 FIN。 

图 28-28 给 出 了 函数 下 一 部 分 的 代码 ， 从 接收 报 文 段 中 删除 落 在 通告 窗口 右 侧 的 数据 。 


697 7« tcp. input.c 
698 * If segment ends after window, drop trailing data 

699 * (and PUSH and FIN); if nothing left, just ACK. 

700 */ 

701 todrop = (ti-»ti seq + ti-»ti len) - (tp-»rcv nxt + tp-»rcv wnd); 
702 if (todrop > 0) { 

703 tcpstat.tcps rcvpackafterwin**; 

704 if (todrop >= ti-»ti len) ( 

705 tcpstat.tcps rcvbyteafterwin += ti-»ti len; 

706 /* 

707 * If a new connection request is received 

708 * while in TIME WAIT, drop the old connection 

709 * and start over if the sequence numbers 

710 * are above the previous ones. 

711 */ 

712 if (tiflags & TH_SYN && 

713 tp->t_state == TCPS_TIME_WAIT && 


图 28-28 tcp_input 函 数 : 删除 落 在 窗口 右 侧 的 数据 
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714 SEQ GT(ti-»ti seq, tp-»rcv nxt)) ( 

715 iss = tp-»rcv nxt + TCP ISSINCR; 

716 tp = tcp close(tp); 

717 goto findpcb; 

718 ) 

719 /* 

720 * If window is closed can only take segments at 
721 * window edge, and have to drop data and PUSH from 
722 * incoming segments. Continue processing, but 
723 * remember to ack. Otherwise, drop segment 

724 * and ack. 

725 */ 

726 if (tp-»rcv wnd == 0 && ti-»ti seq == tp-»rcv nxt) ( 
727 tp-»t flags |= TF ACKNOW; 

728 tcpstat.tcps rcvwinprobe4s; 

729 ) else 

730 goto dropafterack; 

731 ) else 

732 tcpstat.tcps rcvbyteafterwin += todrop; 

733 m adj(m, -todrop); 

734 ti-»ti len -= todrop; 

735 tiflags &- ^(TH PUSH | TH FIN); 

736 } 


tcp input.c 
图 28-28 (££) 
9. 计算 落 在 通告 窗口 右 侧 的 字 节 数 
697-703 todrop 等 于 接收 报 文 段 中 落 在 通告 窗口 右 侧 的 字 节 数 。 例 如 ， 在 图 28-29 中 ， 
todrop 等 于 (6+5) 减 去 (4+6)， 即 等 于 1。 
_rcv_wna = 6; 接收 窗口 


向 发 送 方 通告 
1 2 3 4 5 6 7 8 9 10 1 
已 确认 过 的 序号 h 4 
——————————— 
rcv, nxt -4 rcv. adv = 10 
ti, lenz5 


图 28-29 举例 : 接收 报 文 段 部 分 数据 落 在 窗口 右 侧 


10. 如 果 连 接 处 于 TIME_WAIT 状 态 ， 查 看 有 无 新 的 连接 请 求 
704-718 如 果 todrcp 大 于 等 于 报 文 段 长 度 ， 则 丢弃 整个 报 文 段 。 如 果 下 列 3 个 条 件 全 真 : 

1) SYN 标 志 置 位 ; 并 且 

2) 连接 处 于 TIME_WAIT 状 态 ; 并 且 

3) 新 的 起 始 序号 大 于 连接 上 最 后 收 到 的 序号 ; 
说 明 对 端 要 求 在 已 被 关闭 上 且 正 处 于 TIME_WAIT 状 态 的 连接 上 重建 连接 。RFC 1122 允 许 这 种 情 
况 ， 但 要 求 新 连接 的 ISS 必 须 大 于 最 后 收 到 的 序号 (rcv_nxt)。TCP 在 rcv_nxt 的 基础 上 增加 
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128 000(TCP_ISSINCR)， 得 到 执行 图 28-17 中 的 代码 时 所 使 用 的 ISS。 调 用 tcp_c1lose 释 放 
处 于 TIME_WAIT 状 态 的 原 有 连接 的 PCB 和 TCP 控 制 块 。 控 制 跳 转 到 findpcb( 图 28-3)， 寻 找 
监听 服务 器 的 PCB( 假 定 服务 器 仍 在 运行 )。 然 后 执行 图 28-7 中 的 代码 ， 为 新 连接 创建 新 的 插口 ， 
最 后 执行 图 28-16 和 图 28-17 中 的 代码 ， 完 成 新 连接 请 求 的 处 理 。 

11. 判定 是 否 为 窗口 探测 报 文政 
719-728 如 果 接 收 窗口 已 关闭 (rcv_wnd 等 于 0)， 且 接收 报 文 段 中 的 数据 从 窗口 最 左 端 开 始 
(rcv_nxt)， 说 明 是 对 端 发 送 的 窗口 探测 报 文 段 。TCP 立 即 发 送 响 应 ACK， 其 中 包含 等 待 接 
收 的 序号 。 

12. 丢弃 完全 落 在 窗口 之 外 的 其 他 报 文 段 
729-730 如果 报 文 段 整个 落 在 窗口 之 外 ， 且 并 非 窗 口 探测 报 文 段 ， 则 丢弃 该 报 文 段 ， 并 发 
送 携带 等 待 接收 序号 的 ACK， 作 为 响应 。 

13. 处 理 携带 部 分 有 效 数 据 的 报 文 段 
731-735 ”通过 m_adj， 从 mbuf 链 中 删除 落 在 窗口 右 侧 的 数据 ， 并 更 新 ti_len。 如 果 接 收 
报 文 段 是 对 端 发 送 的 窗口 探测 报 文 段 ，m_adj 将 丢弃 mbuf 链 中 的 所 有 数据 ， 并 将 Fi_1Len 设 
为 0， 最 后 清除 FIN 和 PSH 标 志 。 


何 时 丢弃 ACK 


图 28-25 中 的 代码 有 错误 ， 在 几 种 情况 下 ， 本 应 继续 进行 报 文 段 处 理 ， 控 制 却 跳 转 到 
dropafterack[Carlson 1993; Lanciani 1993]。 系 统 实际 运行 时 ， 如 果 连 接 双 方 重组 队列 中 
都 存在 缺失 报 文 段 ， 并 都 进入 持续 状态 ， 将 造成 死 锁 ， 因 为 双方 都 将 丢弃 正常 的 ACK。 

纠正 的 方法 是 简化 图 28-25 起 始 处 的 代码 。 控 制 不 再 跳 转 到 qropafterack， 如 果 收 到 了 完全 
重复 报 文 段 ， 则 关闭 FIN 标 志 ， 并 在 函数 结束 时 强迫 立即 发 送 ACK。 删 除 图 28-25 中 的 646~676 行 的 
代码 ， 而 代 之 以 图 28-30 中 的 代码 。 此 外 ， 新 代码 还 更 正 了 原 代 码 中 的 另 一 个 错误 (习题 28.9)。 


if (todrop > ti-»ti len || 
todrop -- ti-»ti len && (tiflags & TH FIN) -- 0) ( 


/* 

* Any valid FIN must be to the left of the window. 
* At this point the FIN must be a duplicate or 

* out of sequence; drop it. 

*/ 

tiflags &- ^TH FIN; 


/* 
* Send an ACK to resynchronize and drop any data. 
* But keep on processing for RST or ACK. 

*/ 

tp-»-t, flags |= TF. ACKNOW; 

todrop - ti-»ti len; 

tcpstat.tcps, rcvdupbyte += todrop; 

tcpstat.tcps rcvduppacks«*; 


) else ( 
tcpstat.tcps, rcvpartduppacks*; 
tcpstat.tcps rcvpartdupbyte += todrop:; 





图 28-30 图 28-28 中 646~676 行 代码 的 修正 
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28.9 自 连 接 和 同时 打开 


读者 应 首先 理解 播 口 与 自己 建立 连接 的 步 景 。 接 着 会 看 到 在 4.4BSD 中 ， 如 何 巧妙 地 通过 
一 行 代码 修正 图 28-25 中 的 错误 ， 从 而 不 仅 能 够 处 理 自 连接 ， 还 能 处 理 4.4BSD 以 前 的 版 本 中 都 
无 法 正确 处 理 的 同时 打开 。 

应 用 进程 创建 一 个 插口 ， 并 通过 下 列 系 统 调用 建立 自 连接 : socket，binaQ 绑 定 到 一 个 
本 地 端口 (假定 为 3000)， 之 后 connect 试 图 与 同一 个 本 地 地 址 和 同一 个 端口 号 建立 连接 。 如 
果 connect 成 功 ， 则 插口 已 建立 了 与 自己 的 连接 : 向 这 个 插口 写 入 的 所 有 数据 ， 都 可 以 在 同 
一 插口 上 读 出 。 这 有 点 类 似 于 全 双 工 的 管道 ， 但 只 有 一 个 ， 而 非 两 个 标识 符 。 尽 管 很 少 有 应 
用 进程 会 这 样 做 ， 但 实际 上 它 是 一 种 特殊 的 同时 打开 ， 两 者 的 状态 变迁 图 相同 。 如 果 系 统 不 
允许 插口 建立 自 连 接 ， 那 么 它 也 很 可 能 无 法 正确 处 理 同 时 打开 ， 而 后 者 是 RFC 1122 所 要 求 的 。 
有 些 人 对 于 自 连 接 能 成 功 感到 非常 惊 证 ， 因 为 只 用 了 一 个 Internet PCB 和 一 个 TCP 控 制 块 。 不 
过 ，TCP 是 全 双 工 的 、 对 称 的 协议 ， 它 为 每 个 方向 上 的 数据 流 保留 一 份 专 有 数据 。 

图 28-31 给 出 了 应 用 进程 调用 connect 时 的 发 送 序号 空间 ，SYN 已 发 送 ， 连 接 状 态 为 
SYN SENT. 

插口 收 到 SYN 后 ， 执 行 图 28-18 和 图 28-20 中 的 代码 ， 但 因为 SYN 中 未 包含 ACK， 连 接 状 
态 转移 到 SYN_RCVD。 从 状态 变迁 图 (图 24-15) 可 知 ， 与 同时 打开 类 似 。 图 28-32 给 出 了 接收 
序号 空间 。 图 28-20 置 位 TF_ACKNOW，tcp_output 和 生成 的 报 文 段 将 包含 SYN 和 ACK( 图 24- 
16 中 的 tcp_outflags)。SYN 序 号 等 于 153， 而 确认 序号 等 于 154。 


SYN 
发 送 SYN: 153 154 155 " 状态 = SYN, SENT 


snd una snd nxt 
snd, max 


图 28-31 自 连 接 : SYN 发 送 后 的 发 送 序 号 空间 


SYN 
接收 SYN: 153 154 155 " 状态 = SYN. RCVD 


rcv, nxt 
图 28-32 自 连 接 : 收 到 的 SYN 处 理 完毕 后 的 接收 序号 空间 
与 图 28-20 处 理 的 正常 情况 相 比 ， 发 送 序 号 空间 没有 变化 ， 只 是 连接 状态 等 于 SYN_SENT。 


图 28-33 给 出 了 收 到 同时 带 有 SYN 和 ACK 的 报 文 段 时 ， 接 收 序号 空间 的 状态 。 


接收 SYN, ACK: 153 154 155 


rcv nxt 


图 28-33 收 到 带 有 SYN 和 ACK 报 文 段 时 ， 接 收 序号 空间 的 状态 
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因为 连接 状态 等 于 SYN_RCVD， 将 执行 图 29-2 中 的 代码 处 理 收 到 的 报 文 段 ， 而 不 用 我 们 
在 本 章 前 面 讨论 过 的 处 理 主动 打开 或 被 动 打开 的 代码 。 但 在 此 之 前 ， 首 先 遇 到 的 是 图 28-24 中 
的 代码 ， 而 且 从 测试 结果 看 似乎 是 一 个 重复 SYN: 

todrop : tme i rcv. seq 

= 1 

因为 SYN 标 志 置 位 ， 清 除 该 标志 ，ti_seq 等 于 154，todrop 等 于 0。 但 因为 todrop 等 于 报 
文 段 长 度 (0)， 图 28-25 开 始 处 的 测试 条 件 为 真 ， 从 而 判定 是 一 个 重复 报 文 段 ， 执 行 注 释 为 “处 
理 绑 定 插口 自 连 接 的 情况 ”的 代码 。 早 期 的 TCP 实 现 直 接 跳 到 qropafterack， 略 过 了 
SYN_RCVD 状 态 的 处 理 逻 辑 ， 不 可 能 建立 连接 。 相 反 ， 即 使 todrop 等 于 0， 且 ACK 标 志 置 位 
(本 例 中 两 个 条 件 都 成 立 )，Net/3 仍 旧 继 续 处 理 收 到 的 报 文 段 ， 从 而 进入 函数 后 面 对 
SYN_RCVD 状 态 的 处 理 ， 连 接 转移 到 ESTABLISHED 状 态 。 

图 28-34 给 出 了 自 连 接 处 理 中 函数 调用 的 情况 ， 是 非常 有 意思 的 。 


connect “系统 调用 


| 


soconnect 





tcp. output tcp input i tcp output tcp input 
ip. output ipintr ip.output ipintr 
| ! 软 中 断 | t 软 中 断 
looutput looutput 
添加 人 到 ipintrq 添加 到 pintra 
动作 ”发送 SYN 处 型 SYN 发 送 SYN, ACK 处 理 ,SYN, ACK 
起 始 状态 CLOSED SYN_SENT SYN. RCVD SYN. RCVD 
结束 状态 SYN SENT SYN RCVD SYN RCVD ESTABLISHED 


[428-34 自 连接 处 理 中 的 函数 调用 序列 


操作 顺序 从 左 至 右 ， 首 先 应 用 进程 调用 connect， 发 出 PRU_CONNECT 请 求 ， 经 协议 栈 
发 送 SYN。 因 为 报 文 段 发 向 主机 自己 的 IP 地 址 ， 直 接 通 过 环 回 接口 加 入 到 ipintrq， 并 生成 
一 个 软 中 断 。 

系统 在 软 中 断 处 理 中 调用 ipintr，ipintr 调 用 tcp_input，tcp_input 再 调用 
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tcp_output， 经 协议 栈 发 送 带 有 ACK 的 SYN。 这 个 报 文 段 也 经 由 环 回 接口 加 入 到 ipintrq, 
并 生成 一 个 软 中 断 。 系 统 调用 ipintr 处 理 软 中 断 ，ipintr 调 用 tcp_input， 连 接 进入 
ESTABLISHED 状 态 。 


28.10 ERIR 
图 28-35 给 出 了 tcp_input 下 一 部 分 的 代码 ， 处 理 收 到 的 时 间 惟 选项 





737 7 tcp. input.c 
738 * If last ACK falls within this segment's sequence numbers, 
739 * record its timestamp. 
740 */ 
741 if (ts present && SEQ LEQ(ti-»ti seq, tp-»last ack sent) && 
742 SEQ LT(tp-»last ack sent, ti-»ti seq + ti-»ti len + 
743 ((tiflags & (TH SYN | TH FIN)) != 0))) ( 
744 tp-»ts, recent age - tcp now; 
745 tp-»ts recent = ts val; 
746 } 
tcp input.c 





图 28-35 tcp inputtA XX: 记录 时 间 堆 


737-746 如 果 收 到 的 报 文 段 中 带 有 时 间 截 ， 时 间 惟 值 保存 在 ts_recent 中 。 我 们 在 26.6 节 
曾 讨 论 过 Net3 的 处 理 代 码 有 错误 。 如 果 FIN 和 SYN 标 志 均 未 置 位 ， 表 达 式 


((tiflags & (TH_SYNITH_FIN)) != 0) 
等 于 0; 如 果 有 一 个 置 位 ， 则 等 于 1。 
28.11 RST 处 理 


图 28-36 给 出 了 处 理 RST 标 志 的 switch 语 句 ， 取 决 于 当前 的 连接 状态 。 

1. SYN_RCVD 状 态 
759-761 插 癌 差错 代码 设 定 为 ECONNREFUSED， 控 制 向 前 跳 转车 干 行 ， 关 闭 插口 。 在 两 种 
状况 下 ， 连 接 进入 此 状态 。 一 般 地 讲 ， 连 接收 到 SYN 后 ， 从 LISTEN 转 移 到 SYN_RCVD 状 态 。 
TCP 发 送 带 有 ACK 的 SYN 做 为 响应 ， 但 接着 却 收 到 了 对 端的 RST。 此 时 ，so 引 用 的 插口 是 在 
图 28-7 中 调用 sonewconn 新 创建 的 。 因 为 Garopsocket 为 真 ， 在 标注 drop 处 ， 桂 口 被 丢弃 ， 
监听 插口 不 受 影响 。 这 也 是 图 24-15 中 状态 从 SYN_RCVD 转 回 LISTEN 的 原因 。 

另 一 种 情况 是 ， 应 用 进程 调用 connect 后 ， 出 现 同时 打开 ， 状 态 也 转移 到 SYN_RCVD。 
收 到 RST 后 ， 向 应 用 进程 返回 插口 差错 。 

cp input.c 


747 /* 
748 * If the RST bit is set examine the state: 


749 * SYN RECEIVED state: 

750 * If passive open, return to LISTEN state. 

751 * If active open, inform user that connection was refused. 
752 * ESTABLISHED, FIN WAIT 1, FIN WAIT2, CLOSE WAIT states: 
753 * Inform user that connection was reset, and close tcb. 
754 * CLOSING, LAST ACK, TIME WAIT states 

755 * Close the tcb. 

756 */ 


图 28-36 tcp input: 处 理 RST 标 志 
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757 if (tiflags & TH RST) 
758 switch (tp-»t state) ( 
759 case TCPS SYN RECEIVED: 
760 SO-»8S0, error = ECONNREFUSED; 
761 goto close; 
762 case TCPS ESTABLISHED: 
763 case TCPS FIN WAIT 1: 
764 case TCPS, FIN WAIT 2: 
765 Case TCPS CLOSE WAIT: 
766 SO-»SO, error = ECONNRESET; 
767 close: 
768 tp-»t state = TCPS CLOSED; 
769 tcpstat.tcps drops-**; 
770 tp = tcp close(tp): 
771 goto drop; 
772 Case TCPS CLOSING: 
773 Case TCPS, LAST ACK: 
774 Case TCPS TIME WAIT: 
715 tp = tcp. close(tp); 
776 goto drop; 
777 ) . 
tcp input.c 
图 28-36 (£3) 
2. 其 他 状态 


762-777 如 果 在 ESTABLISHED、FIN_WAIT_1、FIN_WAIT_2 或 CLOSE_WAIT 状 态 收 到 
RST， 则 返回 差错 代码 ECONNRESET。 如 果 状 态 为 CLOSING、LAST_ACK 或 TIME_WAIT,， 
由 于 应 用 进程 已 关闭 插口 ， 无 需 返 回 差错 代码 。 
如 果 克 许 RST 终 止 处 于 TIME_WNRIT 状 态 的 连接 ， 那 么 TIME_WRIT 状 态 也 就 没有 

存在 的 必要 。REFC 1337 [Braden 1992] 讨 论 了 这 一 点 ， 及 其 他 取消 TIME_WAIT 状 态 

的 可 能 状况 ， 建 议 不 允许 RST 永 久 终 止 处 于 TIME_WAIT 状 态 的 连接 。 参 见习 题 28.10 

中 的 例子 。 

图 28-37 给 出 了 函数 下 一 部 分 的 代码 ， 验 证 SYN 是 否 出 错 ，ACK 是 否 存 在 。 





778 7* tcp input.c 
779 * If a SYN is in the window, then this is an - 
780 * error and we send an RST and drop the connection. 
781 */ 
782 if (tiflags & TH SYN) ( 
783 tp - tcp drop(tp, ECONNRESET); 
784 goto dropwithreset; 
785 ) 
786 /* 
787 * If the ACK bit is off we drop the segment and return. 
788 */ 
789 if ((tiflags & TH ACK) == 0) 
790 goto drop; . 
tcp input.c 


图 28-37 tcp inputifiÉ: 处 理 带 有 多 余 SYN 或 者 缺少 ACK 的 报 文 段 - 


778-785 如 果 SYN 标 志 依 旧 置 位 ， 说 明 出 现 了 差错 ， 连 接 被 丢弃 ， 返 回 差 错 代码 
ECONNRESET. 
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786-790 ”如果 ACK 标 志 未 置 位 ， 则 报 文 段 被 丢弃 。 我 们 将 在 下 一 章 讨 论 函数 剩余 部 分 的 代 
码 ， 其 中 假定 ACK 标 志 均 置 位 。 


28.12 小 结 


本 章 详细 介绍 了 TCP 输 入 处 理 的 前 半 部 分 ， 下 一 章 将 继续 讨论 函数 剩余 的 部 分 。 

本 章 介绍 了 如 何 验证 报 文 段 检验 和 ， 处 理 各 种 TCP 选 项 ， 处 理发 起 和 结束 连接 建立 的 
SYN 报 文 段 ， 从 报 文 段 头 尾 两 个 方向 删除 无 效 数 据 ， 及 处 理 RST 标 志 。 

首部 预测 算法 处 理 正常 情况 的 数据 流 是 非常 有 效 的 ， 执 行 速度 最 快 。 尽 管 我 们 讨论 的 多 
数 处 理 逻 辑 用 于 和 覆盖 所 有 可 能 发 生 的 情况 ， 但 多 数 报 文 段 都 是 正常 的 ， 只 需 很 少 的 处 理 步 又 。 
习题 

28. 假定 Net/3 中 插口 缓存 最 大 等 于 262 444， 基 于 图 28-7 的 算法 ， 得 到 的 窗口 缩放 因子 
是 多 少 ? 

28.2 假定 NeV3 中 插口 缓存 最 大 等 于 262 444， 如 果 往 返 时 间 等 于 60ms， 可 能 的 最 大 吞吐 
量 是 多 少 ? (提示 : 见 卷 1 的 图 24-5 及 带宽 的 解 ) 

28.3 为 什么 图 28-10 中 ， 调 用 bcopy 获 取 时 间 惟 值 ? 

28.4 我 们 在 26.6 节 中 提 到 ，TCP 要 求 的 时 间 惟 选项 格式 与 REFC 1323 附 录 A 中 定义 的 不 同 。 
尽管 TCP 能 够 正确 处 理 时 间 截 ， 但 由 于 采用 与 标准 不 同 的 格式 ， 会 付出 什么 代价 ? 

285 处 理 PRU_ATTACH 请 求 时 会 分 配 PCB 和 TCP 控 制 块 ， 为 什么 不 接着 调用 
tcp_template 分 配 首 部 模板 ?而 是 直至 收 到 了 SYN， 在 图 28-17 中 才 进 行 这 一 操作 。 

28.6 阅读 RFC 1323， 理 解 为 什么 图 28-22 中 选取 24 天 做 为 空闲 时 间 的 界限 ? 

28.7 在 图 28-22 中 ， 如 果 连 接 空 闪 时 间 超 过 24 天 ，tcp_now-ts_recent_age 与 
TCP_PAWS_IDLE 的 比较 ， 会 出 现 符 号 位 回 线 的 问题 。Net/3 中 采取 500ms 做 为 时 间 
惟 单 位 ， 会 在 什么 时 间 出 现 问题 ? 

28.8 阅读 REFC 1323， 回 答 为 什么 图 28-22 中 PAWS 测 试 不 包括 RST 报 文 段 ? 

28.9 客户 发 送 了 SYN， 服 务 器 响应 SYN/ACK。 客 户 转移 到 ESTABLISHED 状 态 ， 并 发 送 
响应 ACK。 但 这 个 ACK 丢 失 ， 服 务 器 重 发 SYN/ACK。 描 述 一 下 客户 收 到 重 发 的 
SYN/ACK 时 的 处 理 步 又 。 

28.10 客户 和 服务 器 已 建立 了 连接 ， 服 务 器 主动 关闭 。 连 接 正 常 终止 服务器 上 的 插口 
对 转移 到 TIME_WAIT 状 态 。 在 服务 器 的 2MSL 定 时 器 超时 前 ， 同 一 客户 (客户 端的 
同一 个 插口 对 ) 向 服务 器 发 送 SYN， 但 起 始 序号 小 于 连接 上 最 后 收 到 的 序号 。 会 发 
生 什 么 ? 


第 29 章 TCP 的 输入 ( 续 ) 


29.1 引言 


本 章 从 前 一 章 结束 的 地 方 开 始 ， 继 续 介绍 TCP 输 入 处 理 。 回 想 一 下 图 28-37 中 最 后 的 测试 
条 件 ， 如 果 ACK 未 置 位 ， 输 入 报 文 段 被 丢弃 。 

本 章 处 理 ACK 标 志 ， 更 新 窗 品 信息， 处 理 URG 标 志 及 报 文 段 中 携带 的 所 有 数据 ， 最 后 处 
理 FIN 标 志 ， 如 果 需 要 ， 则 调用 tcp_output。 


29.2 ACK 处 理 概述 


在 本 章 中 ， 我 们 首先 讨论 ACK 的 处 理 ， 图 29-1 给 出 了 ACK 处 理 的 框架 。SYN_RCVD 状 态 
需要 特殊 处 理 ， 紧 跟着 是 其 他 状态 的 通用 处 理 代码 (前 一 章 已 讨论 过 在 LISTEN 和 SYN_SENT 
状态 下 收 到 ACK 时 的 处 理 逻 辑 )。 接 着 是 对 TCPS_FIN_WAIT_1、TCPS_CLOSING 和 
TCPS_LAST_ACK 状 态 的 一 些 特殊 处 理 ， 因 为 在 这 些 状 态 下 收 到 ACK 会 导致 状态 的 转移 。 此 
外 ， 在 TIME_WAIT 状 态 下 收 到 ACK 还 会 导致 2MSL 定 时 器 的 重启 。 





switch (tp-»t state) í 


case TCPS, SYN RECEIVED: 
complete processing of passive open and process 
simultaneous open or self-connect; 
/* fall into ... */ 


case TCPS ESTABLISHED: 
case TCPS FIN ,WAIT 1: 
case TCPS FIN WAIT 2: 
case TCPS CLOSE WAIT: 
case TCPS CLOSING: 
case TCPS, LAST. ACK: 
case TCPS TIME WAIT: 
process duplicate ACK; 
update RTT estimators; 
if all outstanding data ACKed, turn off retransmission timer; 
remove ACKed data from socket send buffer; 


switch (tp-»t state) ( 


case TCPS FIN WAIT 1: 
if (FIN is ACKed) ( 
move to FIN.WAIT 2 state; 
start FIN WAIT 2 timer; 
2 
break; 


case TCPS CLOSING: 
if (FIN is ACKed) ( 


图 29-1 ACK 处 理 框架 
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move to TIME WAIT state; 
start TIME WAIT timer; 

} 

break; 


case TCPS LAST ACK: 
if (FIN is ACKed) 
move to CLOSED state; 
break; 


case TCPS TIME, WAIT: 
restart TIME WAIT timer; 
goto dropafterack; 





图 29-1 ( 续 ) 


29.3 ”完成 被 动 打开 和 同时 打开 


图 29-2 给 出 了 如 何 处 理 SYN_RCVD 状 态 下 收 到 的 ACK 报 文 段 。 如 前 一 章 中 提 到 过 的 ， 这 
也 将 完成 被 动 打开 (一 般 情 况 )， 或 者 是 同时 打开 及 自 连 接 (特殊 情况 ) 的 连接 建立 过 程 。 

1. 验证 收 到 的 ACK 
801-806 如 果 收 到 的 ACK 确 认 了 已 发 送 的 SYN， 它 必须 大 于 snd_una (tcp_sendseqinit 将 
snd_una 设 定 为 连接 的 ISS，SYN 报 文 段 的 序号 )， 且 小 于 等 于 snd_max。 如 果 条 件 满足 ， 则 
插口 进入 连接 状态 ESTABLISHED。 





791 yr tcp. input.c 
792 * Ack processing. 

793 */ 

794 switch (tp-»t state) ( 

795 /* 

796 * In SYN RECEIVED state if the ack ACKs our SYN then enter 
797 * ESTABLISHED state and continue processing, otherwise 

798 * send an RST. 

799 */ 

800 case TCPS, SYN RECEIVED: 

801 if (SEQ GT(tp-»snd una, ti-»-ti ack) |l 

802 SEQ GT(ti-»ti, ack, tp-»snd max)) 

803 goto dropwithreset; 

804 tcpstat.tcps, connects-*; 

805 soisconnected(so); 

806 tp-»t, state - TCPS ESTABLISHED; 

807 /* Do window scaling? */ 

808 if ((tp-»t flags & (TF. RCVD SCALE | TF REQ. SCALE)) == 

809 (TF. RCVD SCALE | TF REQ SCALE)) ( 

810 tp-»snd scale = tp-»requested s. scale; 

811 tp-»rcv, scale = tp-»request r, scale; 

812 } 

813 (void) tcp reass(tp, (struct tcpiphdr *) 0, (struct mbuf *) 0); 
814 tp-»snd wll = ti-»ti, seq - 1; 

815 /* fall into ... */ 


tp input.c 


图 29-2 tcp_input 函 数 : 在 SYN_RCVD 状 态 收 到 ACK 
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在 收 到 三 次 握手 的 最 后 一 个 报 文 段 后 ， 调 用 soisconnectedq 唤 醒 被 动 打开 的 应 用 进程 
(一 般 为 服务 器 )。 如 果 服 务 器 在 调用 accept 上 阻塞 ， 则 该 调用 现在 返回 。 如 果 服 务 器 调用 
select 等 待 连接 可 读 ， 则 连接 现在 已 经 可 读 。 

2. 查看 窗口 大 小 选项 
807-812 如 果 TCP 曾 发 送 窗口 大 小 选项 ， 并 且 收 到 了 对 方 的 窗口 大 小 选项 ， 则 在 TCP 控 制 
块 中 保存 发 送 缩放 因子 和 接收 缩放 因子 。 另 外 ，TCP 控 制 块 中 的 snd_scale 和 rcv_scale 
的 默认 值 为 0 (无 缩放 )。 

3. 向 应 用 进程 提交 队列 中 的 数据 
813 现在 可 以 向 应 用 进程 提交 连接 重组 队列 中 的 数据 ， 调 用 tcp_reass， 第 二 个 参数 为 空 。 
重组 队列 中 的 数据 可 能 是 SYN 报 文 段 中 携带 的 ， 它 同时 将 连接 状态 变迁 为 SYN_RCVD。 

814 snd_w11 等 于 收 到 的 序号 减 1， 从 图 29-15 可 知 ， 这 样 将 导致 更 新 3 个 窗口 变量 。 


29.4 快速 重 传 和 快速 恢复 的 算法 


图 29-3 给 出 了 ACK 处 理 的 下 一 部 分 代码 ， 处 理 重 复 ACK， 并 决定 是 否 起 用 TCP 的 快速 重 
传 和 快速 恢复 算法 [Jacobson 1990c]。 两 个 算法 各 自 独 立 ， 但 一 般 都 在 一 起 实现 [Floyd 1994]. 

。 快 速 重 传 算法 用 于 连续 出 现 几 次 (一 般 为 3 次 ) 重 复 ACK 时 ，TCP 认 为 某 个 报 文 段 已 丢失 
并 且 从 中 推断 出 入 失 报 文 段 的 起 始 序号 ， 委 失 报 文 段 被 重 传 。REFC 1122 中 的 4.2.2.21 市 
提 到 了 这 一 算法 ， 建 议 TCP 收 到 乱 序 报 文 段 后 ， 立 即 发 送 ACK。 我 们 看 到 ， 在 图 27-15 
中 ，Net/3 正 是 这 样 做 的 。 这 个 算法 最 早出 现在 4.3BSD Tahoe 版 及 后 续 的 Net/1 实 现 中 ， 
丢失 报 文 段 被 重 传 之 后 ， 连 接 执行 慢 起 动 。 

。 快 速 恢复 算法 认为 采用 快速 重 传 算法 之 后 ( 即 丢失 报 文 段 已 重 传 )， 应 执行 拥塞 避免 算法 ， 
而 非 慢 起 动 。 这 样 ， 如 果 拥 塞 不 严重 ， 还 能 保证 较 大 的 吞吐 量 ， 尤 其 窗口 较 大 时 。 这 个 
算法 最 早出 现在 4.3BSD Reno 版 和 后 续 的 Net/2 实 现 中 。 

Net/3 同 时 实现 了 快速 重 传 和 快速 恢复 算法 ， 下 面 将 做 简单 介绍 。 

在 图 24-17 节 中 ， 我 们 提 到 有 效 的 ACK 必 须 满足 下 面 的 不 等 式 : 

snd una < ATE <=- snd max 

第 一 步 只 与 snd_una 做 比较 ， 之 后 在 图 29-5 中 再 进行 不 等 式 第 二 部 分 的 比较 。 分 开 比 较 

的 原因 是 为 了 能 对 收 到 的 ACK 完 成 下 列 5 项 测试 : 
1) 如 果 确 认 字 段 小 于 等 于 snd_una; 并 且 
2) 接收 报 文 段 长 度 为 0; 并且 
3) 窗口 通告 大 小 未 变 ; 并 且 
4) 连接 上 部 分 发 送 数据 未 被 确认 ( 重 传 定时 器 非 零 )， 并 且 
5) 接收 报 文 段 的 确认 字段 是 TCP 收 到 的 最 大 的 确认 序号 (确认 字段 等 于 snd_una)。 
之 后 可 确认 报 文 段 是 完全 重复 的 ACK( 测 试 项 1、2 和 3 在 图 29-3 中 ， 测 试 4 和 5 在 图 29-4 的 起 始 
处 )。 

TCP 统 计 连 续 收 到 的 重复 ACK 的 个 数 ， 保 存在 变量 t_dupacks 中 ， 次 数 超过 门限 
(tcprexmtthresh，3) 时 ， 丢 失 报 文 段 被 重 传 。 这 也 就 是 卷 1 第 21.7 节 中 介绍 的 快速 重 传 算 
法 。 它 与 图 27 -15 中 的 代码 互相 配合 : 当 TCP 收 到 乱 序 报 文 段 时 ， 立 即 生 成 一 个 重复 的 ACK， 
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告诉 对 端 报 文 段 有 可 能 丢失 和 等 待 接收 的 下 一 个 序号 值 。 快 速 重 传 算法 是 为 了 让 TCP 立 即 重 
传 看 上 去 已 经 丢失 的 报 文 段 ， 而 不 是 被 动 地 等 待 重 传 定时 器 超时 。 卷 1 第 21.7 节 举例 详细 说 明 
了 这 个 算法 是 如 何 工作 的 。 





816 7* tcp. inpu t.c 
817 * In ESTABLISHED state: drop duplicate ACKs; ACK out-of-range 
818 * ACKs. If the ack is in the range 

819 * tp-»snd una < ti->ti_ack <= tp-»snd max 

820 * then advance tp-»snd una to ti-»ti, ack and drop 

821 * data from the retransmission queue. If this ACK reflects 
822 * more up-to-date window information we update our window information. 
823 */ 

824 case TCPS ESTABLISHED: 

825 case TCPS FIN WAIT 1: 

826 case TCPS, FIN. WAIT 2: 

827 case TCPS CLOSE WAIT: 

828 case TCPS CLOSING: 

829 case TCPS, LAST. ACK: 

830 Case TCPS TIME, WAIT: 

831 if (SEQ LEQ(ti-»ti, ack, tp-»snd una)) ( 

832 if (ti-»ti len == 0 && tiwin == tp-»snd wnd) { 

833 tcpstat.tcps rcvdupack-«-s; 

834 /* 

835 * If we have outstanding data (other than 

836 * a window probe), this is a completely 

837 * duplicate ack (ie, window info didn't 

838 * change), the ack is the biggest we've 

839 * seen and we've seen exactly our rexmt 

840 * threshold of them, assume a packet 

841 * has been dropped and retransmit it. 

842 * Kludge snd nxt & the congestion 

843 * window so we send only this one 

844 * packet. 

845 * 

846 * We know we're losing at the current 

847 * window size so do congestion avoidance 

848 * (set ssthresh to half the current window 

849 * and pull our congestion window back to 

850 * the new ssthresh). 

851 * 

852 * Dup acks mean that packets have left the 

853 * network (they're now cached at the receiver) 
854 * so bump cwnd by the amount in the receiver 
855 * to keep a constant cwnd packets in the 

856 * network. 

857 */ 


tcp input.c 
图 29-3 tcp input: 判定 完全 重复 的 ACK 报 文 段 
另 一 方面 ， 重 复 ACK 的 接收 方 也 能 确认 某 个 数据 分 组 已 “离开 了 网 络 *， 因 为 对 端 已 收 到 
了 一 个 乱 序 报 文 段 ， 从 而 开始 发 送 重复 的 ACK。 人 快速 恢复 算法 要 求 连 续 收 到 几 个 重复 ACK 后 ， 
TCP 应 该 执行 拥塞 避免 算法 (如 降低 速度 )， 而 不 一 定 必 需 等 待 连接 两 端 间 的 管道 清空 ( 慢 起 动 )。 
“离开 了 网 络 ” 指 数据 分 组 已 被 对 端 接收 ， 并 加 入 到 连接 的 重组 队列 中 ， 不 再 滞留 在 传输 途 
m. 
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如 果 前 述 5 项 测试 条 件 只 有 前 3 项 为 真 ， 说 明 ACK 是 重复 报 文 段 ， 统 计 值 tcps_rcvdupack 
加 1， 而 连续 重复 ACK 计 数 器 (t_dupacks) 复 位 为 0。 如 果 仅 有 第 一 项 测试 条 件 为 真 ， 则 计数 


器 t_qdupacks 复 位 为 0。 


图 29-4 给 出 了 快速 重 传 算法 其 余 的 代码 ， 当 所 有 5 个 测试 条 件 全 部 满足 时 ， 根 据 已 连续 收 
到 的 重复 ACK 数 上 且 的 不 同 ， 运 用 快速 重 传 算法 处 理 收 到 的 报 文 段 。 
1) t_Gupacks 等 于 3(tcprexmtthresh)， 则 执行 拥塞 避免 算法 ， 并 重 传 丢 失 报 文 


段 。 


2) t_dupacks 大 于 3， 则 增 大 拥塞 窗口 ， 执 行 正 常 的 TCP 输 出 。 
3)t dupacks/h T3, TER. 


858 


865 
866 





tcp. input.c 


if (tp-»t timer[TCPT REXMT] == 0 |I 


ti->ti_ack !- tp-»snd una) 
tp-»t, dupacks = 0; 


else if (++tp->t.dupacks == tcprexmtthresh) { 


tcp_seq onxt = tp-»snd nxt; 
u,int win = 
min(tp-»-snd wnd, tp-»snd cwnd) / 2 / 
tp-»t, maxseg; 


if (win « 2) 
win - 2; 
tp-»snd ssthresh = win * tp-»t maxseg; 
tp-»t timer[TCPT REXMT] = 0; 
tp-»t. rtt = 0; 
tp-»snd nxt = ti-»ti, ack; 
tp->snd cwnd = tp-»t maxseg; 
(void) tcp output (tp); 
tp-»snd cwnd = tp-»snd ssthresh + 
tp-»t maxseg * tp-»t dupacks; 
if (SEQ GT(onxt, tp-»snd nxt)) 
tp-»snd nxt = onxt; 
goto drop; 


) else if (tp-»t dupacks > tcprexmtthresh) { 


tp-»snd cwnd += tp-»t maxseg; 
(void) tcp output (tp) ; 
goto drop; 


tp-»t, dupacks = 0; 


/* beyond ACK processing (to step 6) */ 


tcp. input.c 


图 29-4 tcp inputiE: 处 理 重复 的 ACK 


1. 连续 收 到 的 重复 ACK 次 数 已 达到 门限 值 3 


861-868 


t_dupacks 等 于 3(tcprexmtthresn) 时 ， 在 变量 onxt 中 保存 snd_nxt 值 ， 令 


慢 起 动 门限 (ssthresh) 等 于 当前 拥塞 窗口 大 小 的 一 半 ， 最 小 值 为 两 个 最 大 报 文 段 长 度 。 这 与 
图 25-27 中 重 传 定时 器 超时 处 理 中 的 慢 起 动 门限 设 定 操作 类 似 ， 但 我 们 将 看 到 ， 超 时 处 理 中 把 
拥塞 窗口 设 定 为 一 个 最 大 报 文 段 长 度 ， 快 速 重 传 算 法 并 不 这 样 做 。 


2. 关闭 重 传 定时 器 


869-870 关闭 重 传 定时 器 。 为 防止 TCP 正 对 某 个 报 文 段 计 时 ，t_rtt 清 零 。 
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3. 重 传 缺失 报 文 段 
871-873 从 连续 收 到 的 重复 ACK 报 文 段 中 可 判断 出 丢失 报 文 段 的 起 始 序号 (重复 ACK 的 确认 
字段 )， 将 其 赋 给 snd_nxt， 并 将 拥塞 窗口 设 定 为 一 个 最 大 报 文 段 长 度 ， 从 而 tcp_output 将 只 
发 送 丢 失 报 文 段 ( 参 见 卷 1 的 图 21-7 中 的 63 号 报 文 段 )。 

4. 设 定 拥塞 窗口 
874-875 拥塞 窗口 等 于 慢 起 动 门限 加 上 对 端 高 速 缓存 的 报 文 段 数 .“ 高 速 缓 在 ” 指 对 端 已 收 
到 的 乱 序 报 文 段 数 ， 且 为 这 些 报 文 段 发 送 了 重复 的 ACK。 除 非 对 端 收 到 了 丢失 的 报 文 段 ( 刚 刚 
发 送 )， 这 些 缓存 报 文 段 中 的 数据 不 会 被 提交 给 应 用 进程 。 卷 1 的 图 21-10 和 图 21-11 给 出 了 快速 
重 传 算法 起 作用 时 ,拥塞 窗口 和 慢 起 动 门限 的 变化 情况 。 

5. 设 定 snd_nxt 
876-878 比较 下 一 发 送 序号 (snd_nxt) 的 先前 值 (onxt) 和 当前 值 ， 将 两 者 中 最 大 的 一 个 重 
新 赋 还 给 snd_nxt， 因 为 重 传 报 文 段 时 ，tcp_output 会 改变 snd_nxt。 一 般 情况 下 ， 
snd_nxt 将 等 于 原来 保存 的 值 ， 意 味 着 只 有 丢失 报 文 段 被 重 传 ， 下 一 次 调用 tcp_output 时 ， 
将 继续 发 送 序 列 中 的 下 一 报 文 段 。 

6. 连续 收 到 的 重复 ACK 数 超过 门限 3 
879-883 因为 EL_dupacks 等 于 3 时 ， 已 重 传 了 丢失 的 报 文 段 ， 再 次 收 到 重复 ACK 说 明 又 有 
另 一 个 报 文 段 离开 了 网 络 。 拥 塞 窗口 大 小 加 1， 调 用 Ecp_output 发 送 序列 中 的 下 一 报 文 段 ， 
并 技 弃 重复 的 ACK( 参 见 卷 1 的 图 21-7 的 67 号 、69 号 和 71 号 报 文 段 )。 
884-885 如果 收 到 的 报 文 段 中 带 有 重复 的 ACK， 且 长 度 非 零 或 者 通告 窗口 大 小 发 生变 化 ， 
则 执行 这 些 语句 。 此 时 ， 前 面 提 到 的 5 个 测试 条 件 中 只 有 第 一 个 为 真 ， 连 续 收 到 的 重复 ACK 数 

7. 略 过 ACK 处 理 的 其 余部 分 
886 ”break 语 句 在 下 列 3 种 情况 下 被 执行 : (1) 前 述 5 个 测试 条 件 中 只 有 第 一 个 条 件 为 真 ，(2) 
只 有 前 3 个 条 件 为 真 ; (3) 重 复 ACK 次 数 小 于 门限 值 3。 任 何 一 种 情况 下 ， 尽 管 收 到 的 是 重复 
ACK， 将 执行 break 语 句 ， 控 制 跳 到 图 29-2 中 switch 语 句 的 结尾 处 ， 在 标注 step6 处 继续 
执行 。 

为 了 理解 前 面 的 窗口 操作 步骤 ， 请 看 下 面 的 例子 。 假 定 对 端 接收 窗口 只 能 容纳 8 个 报 文 段 ， 
而 本 地 报 文 段 1~8 已 发 送 。 报 文 段 1 丢失， 其 余 报 文 段 均 正常 到 达 且 被 确认 。 收 到 对 报 文 段 2、 
3 和 4 的 确认 后 ， 重 传 丢 失 的 报 文 段 (1)。 尽 管 在 收 到 后 续 的 对 报 文 段 5~8 的 确认 后 ，TCP 希 望 能 
够 发 送 报 文 自 9， 以 保证 高 的 吞吐 率 。 但 窗口 大 小 等 于 8， 禁 止 发 送 报 文 段 9 及 其 后 续 报 文 段 。 
因此 ， 每 当 再 次 收 到 一 个 重复 的 ACK， 就 暂时 把 拥塞 窗口 加 1， 因 为 收 到 重复 的 ACK 告 诉 TCP 
又 有 一 个 报 文 段 已 在 对 端 离 开 了 网 络 。 最 终 收 到 对 报 文 段 1 的 确认 后 ， 下 面 将 介绍 的 代码 会 减 
少 拥塞 窗口 大 小 ， 令 其 等 于 慢 起 动 门限 。 卷 1 的 图 21-10 举 例 说 明了 这 一 过 程 ， 重 复 ACK 到 达 
时 ， 增 加 拥塞 窗口 大 小 ， 之 后 收 到 新 的 ACK 时 ， 再 相应 地 减少 拥塞 窗口 。 


29.5 ACK 处 理 


图 29-5 中 的 代码 继续 处 理 ACK。 
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988 7* tcp. input.c 
889 * If the congestion window was inflated to account 
890 * for the other side's cached packets, retract it. 
891 */ 
892 if (tp-»t dupacks > tcprexmtthresh && 
893 tp-»snd cwnd > tp-»snd ssthresh) 
894 tp-»snd cwnd = tp-»snd ssthresh; 
895 tp-»t dupacks = 0; 
896 if (SEQ GT(ti-»ti ack, tp-»snd max)) ( 
897 tcpstat.tcps, rcvacktoomuch--; 
898 goto dropafterack; 
899 } 
900 acked = ti->ti_ack - tp-»snd una; 
901 tcpstat.tcps rcvackpack++; 
902 . tcpstat.tcps rcvackbyte += acked; . 
tcp. input.c 
图 29-5 tcp_input 图 数 : 继续 ACK 处 理 
1. 调整 拥塞 窗口 


888-895 如 果 连 续 收 到 的 重复 ACK 数 超过 了 门限 值 3， 说 明 这 是 在 收 到 了 4 个 或 4 个 以 上 的 
重复 ACK 后 ， 收 到 的 第 一 个 非 重复 的 ACK。 快 速 重 传 算法 结束 。 因 为 从 收 到 的 第 4 个 重复 
ACK 开 始 ， 每 收 到 一 个 重复 ACK 就 会 导致 拥塞 窗口 加 1， 如 果 它 已 超过 了 慢 起 动 门限 ， 令 其 
等 于 慢 起 动 门限 。 连 续 收 到 的 重复 ACK 计 数 器 清 零 。 

2. 检查 ACK 的 有 效 性 
896-899 前 面 介绍 过 ， 有 效 的 ACK 必 须 满足 下 列 不 等 式 : 

snd una < 确认 字段 <= snd max 

如 果 确 认 字 段 大 于 snd_max， 可 对 端正 在 确认 了 TCP 尚 未 发 送 的 数据 。 可 能 的 原因 是 ， 
对 于 高 速 连 接 ， 某 个 失踪 的 ACK 再 次 出 现时 ， 序 号 已 回 绕 ， 从 图 24-5 可 知 ， 这 是 极为 罕见 的 
(因为 实际 的 网 络 不 可 能 那么 快 )。 

3. 计算 确认 的 字 节 数 
900-902 经 过 前 面 的 测试 ， 已 知 这 是 一 个 有 效 的 ACK。acked 等 于 确认 的 字 节 数 。 

图 29-6 给 出 了 ACK 处 理 的 下 一 部 分 代码 ， 完 成 RTT 测 算 和 重 传 定 时 器 的 操作 。 

4. 更 新 RTT 测 算 值 
903-915 ”如 果 (1) 时 间 惟 选项 存在 ; 或 者 (2)TCP 对 某 个 报 文 段 计时 ， 且 收 到 的 确认 字段 大 于 
该 报 文 段 的 起 始 序号 ， 则 调用 cp_xmit_cimer 更 新 RTT 测 算 值 。 注 意 ， 使 用 时 间 惟 时 ， 
ccp_xmit_timezr 的 第 二 个 参数 等 于 当前 时 间 (tcp_now) 减 去 收 到 的 时 间 戳 回 显 (ts_eczr) 
加 1( 因 为 函数 处 理 中 减 了 1)。 

由 于 延迟 ACK 的 存在 ， 在 前 面 的 测试 不 等 式 中 应 采用 大 于 号 。 例 如 ， 假 定 TCP 发 送 了 一 
个 报 文 段 ， 携 带 字 节 1~1024， 并 对 其 计时 ， 接 着 又 发 送 了 一 个 报 文 段 ， 携 带 字 节 1025~2048。 
如 果 收 到 的 确认 字段 等 于 2049， 因 为 2049 大 于 1( 计 时 报 文 段 的 起 始 序 号 )，TCP 将 更 新 RTT 测 
算 值 。 

5. 是 否 确认 了 所 有 已 发 送 数 据 
916-924 ”如 果 收 到 报 文 段 的 确认 字段 (ti_ack) 等 于 TCP 的 最 大 发 送 序 号 (snd_max)， 说 明 
所 有 已 发 送 数据 都 已 被 确认 。 关 闭 重 传 定时 器 ， 并 置 位 needoutput 标 志 ， 从 而 在 函数 结束 
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时 强迫 调用 tcp_output。 这 是 因为 在 此 之 前 ， 有 可 能 因为 发 送 窗口 已 满 ，TCP 拒 绝 了 等 待 
发 送 的 数据 ， 而 现在 收 到 了 新 的 ACK， 确 认 了 全 部 已 发 送 数据 ， 发 送 窗 口 能 够 向 右 移动 (图 
29-8 中 的 sndG_una 被 更 新 )， 人 允许 发 送 更 多 的 数据 。 





903 7* tcp input.c 
904 * If we have a timestamp reply, update smoothed 
905 * round-trip time. If no timestamp is present but 
906 * transmit timer is running and timed sequence 
907 * number was acked, update smoothed round-trip time. 
908 * Since we now have an rtt measurement, cancel the 
909 * timer backoff (cf., Phil Karn's retransmit alg.). 
910 * Recompute the initial retransmit timer. 
911 */ 
912 if (ts present) 
913 tcp xmit timer(tp, tcp now - ts .ecr + 1); 
914 else if (tp-»t rtt && SEQ GT(ti-»ti, ack, tp-»t rtseq)) 
915 tcp xmit timer(tp, tp-»t rtt); 
916 /* 
917 * If all outstanding data is acked, stop retransmit 
918 * timer and remember to restart (more output or persist). 
919 * If there is more data to be acked, restart retransmit 
920 * timer, using current (possibly backed-off) value. 
921 */ 
922 if (ti-»ti ack == tp-»snd max) 1{ 
923 tp-»t timer[TCPT REXMT] = 0; 
924 needoutput - 1; 
925 ) else if (tp-»t timer[TCPT PERSIST] -- 0) 
926 tp-»t timer[TCPT REXMT] = tp-»t. rxtcur; 
tcp. input.c 


图 29-6 tcp_input 函 数 ; RTT 测 算 值 和 重 传 定时 器 


6. 存在 未 确认 的 数据 
925-926 ”由 于 发 送 缓存 中 还 存在 未 被 确认 的 数据 ， 如 果 持 续 定时 器 未 设 定 ， 则 启动 重 传 定 
时 器 ， 时 限 等 于 t_rxtcur 的 当前 值 。 


Karn 算 法 和 时 间 戳 


注意 ， 时 间 戳 的 运用 取消 了 Karn 算 法 的 部 分 规定 ( 卷 1 的 21.3 节 ): 如 果 重 传 定时 器 超时 ， 
则 报 文 段 被 重 传 ， 收 到 对 重 传 报 文 段 的 确认 时 ， 不 应 据 此 更 新 RTT 测 算 值 ( 重 传 确认 的 二 义 性 
问题 )。 在 图 25-26 中 ， 我 们 看 到 当 发 生 重 传 时 ， 遵 从 Karn 算 法 ，t_rtt 被 设 为 0。 如 果 时 间 恰 
不 存在 ， 且 收 到 的 是 对 重 传 报 文 段 的 确认 ， 则 图 29-6 中 的 代码 不 会 更 新 RTT 测 算 值 ， 因 为 此 时 
t_rtt 等 于 0。 但 如 果 时 间 改 存在 ， 则 不 查看 E_rtt 值 ， 允 许 利用 收 到 的 时 间 蕉 回 显 字 段 更 新 
RTT 测 算 值 。 根 据 RFC 1323， 时 间 惟 的 运用 不 存在 二 义 性 ， 因 为 fs_ecz 的 值 复制 自 被 确认 
的 报 文 段 。Karn 算 法 中 关于 重 传 报 文 段 时 应 采用 指数 退 避 的 策略 依旧 有 效 。 

图 29-7 给 出 了 ACK 处 理 的 下 一 部 分 代码 ， 更 新 拥塞 窗口 。 





927 
928 
929 


/* 


tcp input.c 


* When new data is acked, open the congestion window. 
* If the window gives us less than ssthresh packets 


[29-7 tcp_input 函数 : 响应 收 到 的 ACK， 打 开 拥 塞 窗口 
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930 * in flight, open exponentially (maxseg per packet). 
931 * Otherwise open linearly: maxseg per window 
932 * (maxseg^2 / cwnd per packet), plus a constant 
933 * fraction of a packet (maxseg/8) to help larger windows 
934 * open quickly enough. 
935 */ 
936 
937 u int cw = tp-»snd cwnd; 
938 u. int incr = tp-»t maxseg; 
939 if (cw > tp-»snd, ssthresh) 
940 incr = incr * incr / cw + incr / 8; 
941 tp-»snd cwnd = min(cw + incr, TCP MAXWIN << tp-»snd, scale); 
942 . 
tcp input.c 
图 29-7 (£3) 
1. 更 新 拥塞 窗口 


927-942 ” 惕 起 动 和 拥塞 避免 的 一 条 原则 是 收 到 ACK 后 将 增 大 拥塞 窗口 。 默 认 情 况 下 ， 每 收 
到 一 个 ACK( 慢 起 动 )， 拥 塞 窗口 将 加 1。 但 如 果 当 前 拥塞 窗口 大 于 慢 起 动 门限 ， 增 加 值 等 于 1 
除 以 拥塞 窗口 大 小 ， 并 加 上 一 个 常量 。 表 达 式 


incr * incr / cw 


等 于 


t maxseg * t maxseg / snd cwnd 


即 1 除 以 拥塞 窗口 ， 因 为 snd_cwnd 的 单位 为 字 节 ， 而 非 报 文 段 。 表 达 式 的 常量 部 分 等 于 最 大 
报 文 段 长 度 的 118。 此 外 ， 拥 塞 窗口 的 上 限 等 于 连接 发 送 窗口 的 最 大 值 。 算 法 的 举例 参见 卷 1 


的 21.8 节 。 
添加 一 个 常量 (最 大 报 文 段 长 度 的 1/8) 是 错误 的 [Floyd 1994]。 但 它 一 直 看 在 于 


BSD 源 码 中 ， 从 4.3BSD 到 4.4BSD 和 Net/3， 应 将 其 删除 。 
图 29-8 给 出 了 tcp_input 下 一 部 分 的 代码 ， 从 发 送 缓存 中 删除 已 确认 的 数据 。 





tcp_input.c 
943 if (acked > so-»so snd.sb cc) { 
944 tp-»-snd wnd -= so-»so snd.sb cc; 
945 sbdrop(&so-»-so snd, (int) so-»so snd.sb cc); 
946 ourfinisacked = 1; 
947 ) else { 
948 sbdrop(&so-»so snd, acked); 
949 tp-»-snd wnd -= acked; 
950 ourfinisacked - 0; 
951 } 
952 if (so-»so snd.sb flags & SB NOTIFY) 
953 sowwakeup (so); 
954 tp-»snd una = ti-»ti ack; 
955 if (SEQ LT(tp-»snd nxt, tp-»snd,una)) 
256 tp-»snd nxt = tp-»snd una; tcp, input.c 
图 29-8 tcp_input 国 数 : 从 发 送 缓存 中 删除 已 确认 的 数据 
> 2. AK iE OUAIS 


943-946 ”如 果 确认 字 节 数 超过 发 送 缓存 中 的 字 节 数 ， 则 从 snd_wnd 中 减 去 发 送 缓存 中 的 字 
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节 数 ， 并 且 可 知 本 地 发 送 的 FIN 已 被 确认 。 调 用 sbdrop 从 发 送 缓存 中 删除 所 有 字 节 。 能 够 以 
这 种 方式 检查 对 FIN 报 文 段 的 确认 ， 是 因为 FIN 在 序号 空间 中 只 占 一 个 字 而 。 
947-951 如 果 确 认 字 节 数 小 于 或 等 于 发 送 缓存 中 的 字 节 数 ，ourfinisacked 等 于 0， 并 从 
发 送 缓存 中 丢弃 acked 字 节 的 数据 。 

3. 唤醒 等 待 发 送 缓 存 的 进程 
951-956 调用 sowwakeup 唤 醒 所 有 等 待 发 送 缓存 的 应 用 进程 ， 更 新 snd_una 保 存 最 老 的 
未 被 确认 的 序号 。 如 果 snd_una 的 新 值 超过 了 sn9_nxt， 则 更 新 后 者 ， 因 为 这 说 明 中 间 的 数 
据 也 被 确认 。 

图 29-9 举 例 说 明了 为 什么 snd_nxt 保 存 的 序号 有 可 能 小 于 snd_una。 假 定 传输 了 两 个 报 
文 段 ， 第 一 个 携带 字 节 1~512， 而 第 二 个 携带 字 节 513~1024。 








1 2 e 512 513 514 e 1024 1025 
— 
4 一 个 报 文 段 ARKE 
snd una snd nxt 
snd max 


图 29-9 连接 上 发 送 了 两 个 报 文 段 
确认 返回 前 ， 重 传 定时 器 超时 。 图 25-26 中 的 代码 将 snd_nxt 设 定 为 snd_una， 进 入 慢 
起 动 状态 ， 调 用 kcp_output 重 传 携带 1~512 字 节 的 报 文 疏 。tcp_output 将 snd_nxt 增 加 
为 513， 如 图 29-10 所 示 。 


1 2 ee 512 513 514 e 1024 1025 
报 文 段 重 传 t 
snd una snd nxt snd max 


图 29-10 重 传 定时 器 超时 后 的 连接 ( 接 图 29-9) 


此 时 ， 确 认 字 段 等 于 1025 的 ACK 到 达 ( 或 者 是 最 初 发 送 的 两 个 报 文 段 或 者 是 ACK 在 网 络 中 
被 延迟 )。 这 个 ACK 是 有 效 的 ， 因 为 它 小 于 等 于 snq_max， 但 它 也 将 小 于 更 新 后 的 snd_una 
值 。 

一 般 性 的 ACK 处 理 现在 已 结束 ， 图 29-11 中 的 switch 语 句 接 着 处 理 了 4 种 特殊 情况 。 


957 switch (tp-»t,state) { tcp inpui.c 
958 /* 

959 * In FIN, WAIT 1 state in addition to the processing 

960 * for the ESTABLISHED state if our FIN is now acknowledged 
961 * then enter FIN,WAIT 2. 

962 */ 

963 case TCPS FIN WAIT 1: 

964 if (ourfinisacked) ( 

965 /* 

966 * If we can't receive any more 

967 * data, then closing user can proceed. 

968 * Starting the timer is contrary to the 


图 29-11 tcp inputi&SÉ: 在 FIN_WAIT_1 状 态 时 收 到 了 ACK 


ths 
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969 * specification, but if we don't get a FIN 

970 * we'll hang forever. 

971 */ 

972 if (so-»so state & SS CANTRCVMORE) ( 

973 Soisdisconnected(so); 

974 tp-»t timer[TCPT 2MSL] = tcp maxidle; 

975 } 

976 tp->t_state = TCPS FIN, WAIT 2; 

977 ) 

978 break; . 

tcp input.c 

图 29-11 ( 续 ) 


4. 在 FIN_WAIT_1 状 态 时 收 到 了 ACK 
958-971 此 时 ， 应 用 进程 已 关闭 了 连接 ，TCP 已 发 送 了 FIN， 但 还 有 可 能 收 到 对 在 FIN 之 前 
发 送 的 报 文 段 的 确认 。 因 此 ， 只 有 在 收 到 FIN 的 确认 后 ， 连 接 才 会 转移 到 FIN_WAIT_2 状 态 。 
图 29-8 中 ，ourfinisacked 标 志 已 置 位 ， 这 取决 于 确认 的 字 节 数 是 否 超过 发 送 缓存 中 的 数 
jug. 

5. i& X FIN. WAIT 2x: H 8 
972-975 我 们 在 25.6 节 中 介绍 了 Net/3 如 何 设 定 FIN_WAIT_2 定 时 器 ， 以 防止 在 FIN_WAIT_2 
状态 无 限 等 待 。 只 有 当 应 用 进程 完全 关闭 了 连接 (如 close 系 统 调 用 ， 或 者 在 应 用 进程 被 某 个 
信和 号 量 终 止 时 与 close 类 似 的 内 核 调用 )， 而 不 是 半 关 闭 时 (如 已 发 送 了 FIN， 但 应 用 进程 仍 在 
连接 上 接收 数据 )， 定 时 器 才 会 启动 。 

图 29-12 给 出 了 在 CLOSING 状 态 收 到 ACK 时 的 处 理 代码 。 





379 7. tcp. input.c 
980 * In. CLOSING state in addition to the processing for 
981 * the ESTABLISHED state if the ACK acknowledges our FIN 
982 * then enter the TIME-WAIT state, otherwise ignore 
983 * the segment. 
984 */ 
985 case TCPS, CLOSING: 
986 if (ourfinisacked) ( 
987 tp-»t state = TCPS, TIME WAIT; 
988 tcp canceltimers (tp); 
989 tp-»t timer[TCPT 2MSL] = 2 * TCPTV MSL; 
990 Ssoisdisconnected(so); 
991 } 
992 break; . 
tcp. input.c 





图 29-12 tcp, inputiR Zr: 在 CLOSING 状 态 收 到 ACK 


6. 在 CLOSING 状 态 收 到 ACK 
979-992 ”如 果 收 到 的 ACK 是 对 FIN 的 确认 (而 非 之 前 发 送 的 数据 报 文 段 )， 则 连接 转移 到 
TIME_WAIT 状 态 。 所 有 等 待 的 定时 器 都 被 清除 (如 等 待 的 重 传 定时 器 )，TIME_WAIT 定 时 器 被 
启动 ， 时 限 等 于 两 倍 的 MSL。 

图 29-13 给 出 了 在 LAST_ACK 状 态 收 到 ACK 的 处 理 代码 。 
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993 7* tcp input.c 
994 * In LAST ACK, we may still be waiting for data to drain 
995 * and/or to be acked, as well as for the ack of our FIN. 
996 * If our FIN is now acknowledged, delete the TCB, 
997 * enter the closed state, and return. 
998 */ 
999 case TCPS LAST ACK: 
1000 if (ourfinisacked) ( 
1001 tp = tcp. close(tp); 
1002 goto drop; 
1003 ) 
1004 break; . 
tcp input.c 


图 29-13 tcp_input 函 数 : 在 LAST_ACK 状 态 收 到 ACK 


7. 在 LAST_ACK 状 态 收 到 ACK 
993-1004 ”如 果 FIN 已 确认 ， 连 接 将 转移 到 CLOSED 状 态 。tcp_close 将 负责 这 一 状态 变 
迁 ， 并 同时 释放 Internet PCB 和 TCP 控 制 块 。 

图 29-14 给 出 了 在 TIME_WAIT 状 态 收 到 ACK 的 处 理 代 码 。 


1005 7 tcp input.c 
1006 * In TIME WAIT state the only thing that should arrive 

1007 * is a retransmission of the remote FIN. Acknowledge 

1008 * it and restart the finack timer. 

1009 */ 

1010 case TCPS TIME WAIT: 

1011 tp-»t timer[TCPT 2MSL] = 2 * TCPTV MSL; 

1012 goto dropafterack; 

1013 } 

1014 , tcp. input.c 





图 29-14 cp_input 国 数 : 在 TIME_WAIT 状 态 收 到 ACK 


8. 在 TIME_WAIT 状 态 收 到 ACK 
1005-1014 此 时 ， 连 接 两 端 都 已 发 送 过 FIN， 且 两 个 FIN 都 已 被 确认 。 但 如 果 TCP 对 远 端 
FIN 的 确认 丢失 ， 对 端 将 重 传 FIN( 带 有 ACK)。TCP 丢 弃 报 文 段 并 重 传 ACK。 此 外 ， 
TIME_WAIT 定 时 器 必须 被 重 传 ， 时 限 等 于 两 倍 的 MSL。 


29.6 更 新 窗口 信息 


TCP 控 制 块 中 还 有 两 个 窗口 变量 我 们 未 曾 提 及 : sna wllflsnd wl2. 

。nd_w11 记 录 最 后 接收 报 文 段 的 序号 ， 用 于 更 新 发 送 窗 口 (snd_wng)。 

。snd_w12 记 录 最 后 接收 报 文 段 的 确认 序号 ， 用 于 更 新 发 送 窗口 。 

到 目前 为 止 ， 只 在 连接 建立 时 (主动 打开 、 被 动 打开 或 同时 打开 ) 遇 到 过 这 两 个 变量 ， 
snd_w1l1 被 设 定 为 ti_seq 减 1。 当 时 说 是 为 了 保证 窗口 更 新 ， 下 面 的 代码 将 证 明 这 一 

如 果 下 列 3 个 条 件 中 的 任 一 个 被 满足， 则 应 根据 接收 报 文 段 中 的 通告 窗口 值 (Cciwin) 更 新 
发 送 窗口 (sna_- wnd): 

1) 报 文 段 携带 了 新 数据 。 因 为 snd_ w11 保 存 了 用 于 更 新 窗口 的 最 后 后 接收 报 文 段 的 起 始 序 
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号 ， 如 果 snd_w11<ti_seq， 说 明 此 条 件 为 真 。 

2) 报 文 段 未 携带 新 数据 (snd_w1l1 等 于 ti._seq)， 但 报 文 段 确认 了 新 数据 。 因 为 snd_w12 
保存 了 用 于 更 新 窗口 的 最 后 接收 报 文 段 的 确认 序号 ， 如 果 snd_w12<ti_ack， 说 明 此 条 件 为 
真 。 

3) 报 文 段 未 携带 新 数据 ， 也 未 确认 新 数据 ， 但 通告 窗口 大 于 当前 发 送 窗 日 。 

这 些 测 试 条 件 的 目的 是 为 了 防止 昌 的 报 文 段 影响 发 送 窗口 ， 因 为 发 送 窗口 并 非 绝 对 的 序 
号 序列 ， 而 是 从 sngd_una 算 起 的 偏 移 量 。 

图 29-15 给 出 了 更 新 发 送 窗 口 的 代码 。 


1015 step6: tep_input.c 

1016 /* 

1017 * Update window information. 

1018 * Don't look at window if no ACK: TAC's send garbage on first SYN. 

1019 */ 

1020 if ((tiflags & TH ACK) && 

1021 (SEQ_LT (tp->snd_wl1, ti->ti_seq) || tp-»snd wll == ti-»ti seq && 

1022 (SEQ LT(tp-»snd w12, ti-»ti ack) |I 

1023 tp--snd wl2 == ti-»ti ack && tiwin > tp->snd wnd))) ( 

1024 /* keep track of pure window updates */ 

1025 if (ti-»ti len == 0 && 

1026 tp-»snd wl12 == ti-»ti ack && tiwin > tp-»snd wnd) 

1027 tcpstat.tcps rcvwinupd.s:s; 

1028 tp-»snd wnd = tiwin; 

1029 tp-»snd wll = ti-»ti seq; 

1030 tp-»-»snd wl2 = ti-»ti, ack; 

1031 if (tp-»snd wnd > tp-»max sndwnd) 

1032 tp-»max sndwnd = tp-»snd wnd; 

1033 needoutput - 1; 

1034 ) . 
tcp input.c 


图 29-15 tcp_input 图 数 : 更 新 窗口 信息 
1. 是 否 需 要 更 新 发 送 窗口 
1015-1023 if 语 句 检 查 报 文 段 的 ACK 标 志 是 否 置 位 ， 且 前 述 3 个 条 件 中 是 否 有 一 个 被 满足 。 
前 面 介 绍 过 ， 在 LISTEN 状 态 或 SYN_SENT 状 态 收 到 SYN 后 ， 控 制 将 跳 转 到 step6， 而 在 
LISTEN 状 态 收 到 的 SYN 不 带 ACK.。 
注释 中 的 TAC 指 “终端 接 入 控制 器 (terminal access controller)", & ARPANET E 
的 Telnet 客 户 。 


1024-1027 如果 收 到 一 个 纯 窗口 更 新 报 文 段 (长 度 为 0，ACK 未 确认 新 数据 ， 但 通告 窗口 增 
加 )， 统 计 值 tcps_rcvwinupd 递 增 。 

2. 更 新 变量 
1028-1033 更 新 发 送 窗口 ， 保 存 新 的 snda_w11 和 snq_w12 值 。 此 外 ， 如 果 新 的 通告 窗口 
是 TCP 从 对 端 收 到 的 所 有 窗口 通告 中 的 最 大 值 ， 则 新 值 被 保存 在 max_sndwnd 中 。 这 是 为 了 
猜测 对 端 接收 缓存 的 大 小 ， 在 图 26-8 中 用 到 了 此 变量 。 更 新 snd_wnd 后 ， 发 送 窗 口 可 用 空间 
增加 ， 从 而 能 够 发 送 新 的 报 文 段 ， 因 此 ，needoutput 标 志 置 位 。 
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29.7 ”紧急 方式 处 理 
TCP 输 入 处 理 的 下 一 部 分 是 URG 标 志 置 位 时 的 报 文 段 。 如 图 29-16 所 示 。 








1035 m tcp. input.c 
1036 * Process segments with URG. 
1037 *f 
1038 if ((tiflags & TH URG) && ti-»ti urp && 
1039 TCPS HAVERCVDFIN(tp-»t state) == 0) ( 
1040 /* 
i041 * This is a kludge, but if we receive and accept 
1042 * random urgent pointers, we'll crash in 
i043 * soreceive. It's hard to imagine someone 
1044 * actually wanting to send this much urgent data. 
1045 */ 
1646 it (ti-»ti urp + so-»so rcv.sb cc > sb max) { 
10647 ti-»ti urp - 0; /* XXX */ 
1648 tiflags &- ^TH,URG; /* XXX */ 
1049 goto dodata; /* XXX */ 
i050 ) : 
tcp. input.c 








图 29-16 tcp_input 国 数 : 紧急 方式 的 处 理 


1. 是 否 需要 处 理 URG 标 志 
1035-1039 只 有 满足 下 列 条 件 的 报 文 段 才 会 被 处 理 : URG 标 志 置 位 ， 紧 急 数据 偏 移 量 
(ti_urp) 非 零 ， 连 接 还 未 收 到 FIN。 只 有 当 连 接 的 状态 等 于 TIME_WAIT 时 ， 宏 
TCPS_HAVERCVDFIN 才 会 为 真 ， 因 此 ， 连 接 处 于 任何 其 他 状态 时 ，URG 都 会 被 处 理 。 在 后 
面 的 注释 中 提 到 ， 连 接 处 于 CLOSE_WAIT、CLOSING、LAST_ACK 和 TIME_WAIT 等 儿 个 状 
态 时 ，URG 标 志 会 被 忽略 ， 这 种 说 法 是 错误 的 。 

2. 忽略 超出 的 紧急 指针 
1040-1050 ”如 果 紧 急 数 据 偏 移 量 加 上 接收 缓存 中 已 有 的 数据 超过 了 插口 缓存 可 容纳 的 数据 
量 ， 则 忽略 紧急 标志 。 紧 急 数 据 偏 移 量 被 清 零 ，URG 标 志 被 清除 ， 剩 余 的 紧急 方式 处 理 逻 辑 
被 忽略 。 

图 29-17 给 出 了 tcp_input 下 一 部 分 的 代码 ， 处 理 紧 急 指针 。 





1051 7 tcp input.c 
1052 * If this segment advances the known urgent pointer, 

1053 * then mark the data stream. This should not happen 

1054 * in CLOSE WAIT, CLOSING, LAST ACK or TIME WAIT states Since 
1055 * a FIN has been received from the remote side. 

1056 * In these states we ignore the URG. 

1057 * 

1058 * According to RFC961 (Assigned Protocols), 

1059 * the urgent pointer points to the last octet 

1060 * of urgent data. We continue, however, 

1061 * to consider it to indicate the first octet 

1062 * of data past the urgent section as the original 

1063 * spec states (in one of two places). 

1064 */ 

1065 if (SEQ GT(ti-»ti seq + ti-»ti urp, tp-»rcv up)) ( 


图 29-17 tcp_input 国 数 : 处 理 收 到 的 紧急 指针 


1066 
1067 
1068 
1069 
1070 
1071 
1072 
1073 
1074 
1075 
1076 
1077 
1078 
1079 
1080 
1081 
1082 
1083 
1084 
1085 
1086 
1087 
1088 
1089 
1090 
1091 
1092 
1093 
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tp-»rcv up = ti-»ti seq + ti-»ti urp; 
SOo-»sSo oobmark = so-»so rcv.sb cc + 
(tp-»rcv up - tp-»rcv nxt) - 1; 
if (so-»so oobmark == 0) 
So-»So state |= SS RCVATMAREK; 
sohasoutofband(so); 
tp-»t oobflags &- "(TCPOOB HAVEDATA | TCPOOB HADDATA); 


} 
/* 
* Remove out-of-band data so doesn't get presented to user. 


* This can happen independent of advancing the URG pointer, 
* but if two URG's are pending at once, some out-of-band 

* data may creep in... ick. 

*/ 


if (ti-»ti,urp <= ti-»ti len 
#ifdef SO, OOBINLINE 
&& (so-»so options & SO OOBINLINE) -- 
#endif 
) 
tcp, pulloutofband(so, ti, m); 
) else ( 
/* 
* If no out-of-band data is expected, pull receive 
* urgent pointer along with the receive window. 
*/ 
if (SEQ GT(tp-»rcv nxt, tp-»rcv up)) 
tp-»rcv up - tp-»rcv nxt; 


tcp, input.c 





829-17 ( 续 ) 


1051-1065 ”如 果 接 收报 文 段 的 起 始 序 号 加 上 紧急 数据 偏 移 量 超过 了 当前 接收 紧急 指针 ， 说 
明 已 收 到 了 一 个 新 的 紧急 指针 。 例 如 ， 图 26-30 中 的 携带 3 字 节 的 报 文 段 到 达 接 收 方 ， 如 图 29- 


18 所 示 。 
一 般 情 况 下 ， 收 到 的 紧急 指针 (zcv_up) 接收 报 文 段 
等 于 rcv_nxt。 这 个 例子 中 ， 因 为 if 语句 ti len-3 


为 真 (4 加 3 大 于 4)，rcv_up 的 新 值 等 于 7。 


3. 计算 收 到 的 紧急 指针 


1066-1070 计算 插口 接收 缓存 中 带 外 数据 


rcv. nxt 
的 分 界 点 ， 应 计 入 接收 缓 在 中 已 有 的 数据 o up 
(so_rcv.sb_cc)。 在 上 面 的 例子 中 ， 假 定 CM luno 
接收 缓存 为 空 ，se_oobmark 等 于 2: 序号 为 RoEPESE 


6 的 字 区 被 认为 是 带 外 数据 。 如 果 这 个 带 外 数 。 所 20.18 图 26.30 中 妥 关 的 报 文 民 到 达 接收 放 
据 标记 等 于 0， 说 明 插口 正 处 在 带 外 数据 分 界 
点 上 。 如 果 发 送 带 外 数据 的 sena 系 统 调用 给 定 长 度 为 1， 并 且 这 个 报 文 段 到 达 对 端 时 接收 缓存 
为 空 ， 就 会 发 生 这 一 现象 ， 同 时 也 再 次 重申 了 Berkeley 系 统 认为 紧急 指针 应 指向 带 外 数据 后 的 
第 一 字 节 。 

4. 向 应 用 进程 通告 TCP 的 紧急 方式 
1071-1072 调用 sohasoutofband 告 知 应 用 进程 有 带 外 数据 到 达 了 插口 ， 清 除 两 个 标 老 
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TCPOOB_HAVEDATA 和 TCPOOB_HADDATA、 它 们 用 于 图 30-8 中 的 PRU_RCVOOB 请 求 处 理 。 

5. 从 正常 的 数据 流 中 提取 带 外 数据 
1074-1085 ”如果 紧急 数据 偏 移 量 小 于 等 于 接收 报 文 段 中 的 字 节 数 ， 说 明 带 外 数据 包含 在 报 
文 段 中 。TCP 的 紧急 方式 允许 紧急 数据 偏 移 量 指向 尚未 收 到 的 数据 。 如 果 定 义 了 
SO_OOBINLINE 常 量 (正常 情况 下 ，NeU3 定 义 了 此 常量 )， 而 且 未 选用 对 应 的 插口 选项 ， 则 接 
收 进程 将 从 正常 的 数据 流 中 提取 带 外 数据 ， 并 保存 在 t_iobc 变 量 中 。 完 成 这 一 功能 的 函数 ， 
是 我 们 将 在 下 一 节 介 绍 的 tcp_pulloutofband。 

注意 ， 无 论 紧急 指针 指向 的 字 节 是 否 可 读 ，TCP 都 将 通知 接收 进程 发 送 方 已 进入 紧急 方 
式 。 这 是 TCP 紧 急 方式 的 一 个 特性 。 

6. 如 果 不 处 于 紧急 方式 ， 调 整 接收 紧急 指针 
1086-1093 ”在 接收 方 未 处 理 紧 急 指 针 时 ， 如 果 rcv_nxt 大 于 接收 紧急 指针 ， 则 rcv_up 向 
右 移动 ， 并 等 于 rcv_nxt。 这 使 接收 紧急 指针 一 直 指 向 接收 窗口 的 左 侧 ， 确 保 在 收 到 URG 标 
志 时 ， 图 29-17 起 始 处 的 宏 SEQ_GT 能 够 得 出 正确 的 结果 。 

如 果 要 实现 习题 26.6 中 提出 的 方案 ， 也 必须 相应 修改 图 29-16 和 图 29-17 中 的 代 
码 。 


29.8 tcp_pulloutofband 函 数 


图 29-17 中 的 代码 调用 了 这 个 函数 ， 如 果 : 

1) 接收 报 文 段 中 带 有 紧急 方式 标志 ; 并 且 

2) 带 外 数据 包含 在 接收 报 文 段 中 (如 ， 紧 急 指针 指向 接收 报 文 段 ); 并 且 

3) 未 选用 So_OOBINLINE 选 项 。 

函数 从 正常 的 数据 流 (保存 接收 报 文 段 的 mbuf 链 ) 中 提取 带 外 字 节 ， 并 保存 在 连接 TCP 控 制 
块 中 的 t_iobc 变 量 中 。 应 用 进程 通过 recv 系 统 调用 ， 置 位 MSG_00B 标 志 ， 读 取 这 个 变量 : 
图 30-8 中 的 PRU_RCVOOB 请 求 。 图 29-19 给 出 了 函数 代码 。 





1282 void tcp_input.c 
1283 tcp pulloutofband(so, ti, m) 

1284 struct socket *so; 

1285 struct tcpiphàr *ti; 

1286 struct mbuf *m; 


1287 ( 

1288 int cnt = ti-»ti urp - 1; 

1289 while (cnt >= 0) ( 

1290 if (m-»m len » cnt) ( 

1291 char *cp = mtod(m, caddr t) + cnt; 
1292 struct tcpcb *tp = sototcpcb(so); 
1293 tp-»t iobc = *cp; 

1294 tp-»t, oobflags |= TCPOOB HAVEDATA; 
1295 bcopy(cp + 1, cp, (unsigned) (m-»m len - cnt - 1)):; 
1296 m-»m len--; 

1297 return; 

1298 ) 

1299 cnt -= m-»m len; 


图 29-19 tcp pulloutofbandi&/Hk: 将 带 外 数据 保存 在 t_iopc 变 量 中 
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1300 m = m-»m next; 

1301 if (m == 0) 

1302 break; 

1303 ] 

1304 panic("tcp pulloutofband"); 
1305 } 


tcp input.c 


图 29-19 ( 续 ) 


1282-1289 考虑 图 29-20 中 的 例子 。 紧 急 数据 偏 移 量 等 于 3， 因 此 紧急 指针 等 于 7， 带 外 字 节 
的 序号 等 于 6。 接 收报 文 段 携带 了 5 字 节 的 数据 ， 全 部 保存 在 一 个 mbuf 中 。 

变量 cnt 等 于 2， 因 为 m_len( 等 于 5) 大 于 2， 执 行 if 语 句 为 真 部 分 的 代码 。 
1290-1298 cp 指向 序号 为 6 的 字 节 ， 它 被 放 入 保存 带 外 字 节 的 变量 t_iobc 中 。 置 位 
TCPOOB_HAVEDATA 标 志 ， 调 用 bcopy 将 接 下 来 的 两 个 字 节 (序号 7 和 8) 左 移 1 字 节 ， 如 图 29- 
21 所 示 。 


接收 报 文 段 t_iobc 


m_len = ti len =5 


ti_len=5 
4 5 6 7 8 
m len-4 
4 i 4 4 5 7 8 
rcv nxt AMETS rcp.upb 
ti_seq i 
i ti_urp=3 rcv, nxt 
Jt c c i ER i ti seq 
图 29-20 携带 带 外 字 节 的 报 文 段 图 29-21 移 走 带 外 数据 后 的 结果 ( 接 图 29-20) 


注意 ， 数 字 7 和 8 指数 据 字 节 的 序号 ， 而 不 是 其 内 容 。mbuf 的 长 度 从 5 减 为 4/， 但 ti_len 
仍 等 于 5 不 变 ， 这 是 为 了 按 序 把 报 文 段 放 入 插口 的 接收 缓存 。TCP_REASS 宏 和 tcp._reass 消 
数 (在 下 一 节 调 用 ) 都 会 给 rcv_nxt 增 加 ti_len， 本 例 中 ti._len 必 须 等 于 5， 因 为 下 一 个 等 
待 接收 的 序号 等 于 9。 还 请 注意 ， 函 数 没有 对 第 一 个 mbuf 中 的 数据 分 组 首部 长 度 
(m_pkthqdr .1len) 减 1， 这 是 因为 负责 把 数据 添加 到 插口 接收 缓存 的 sbappend 不 使 用 此 长 度 
fü. 

跳 至 链 中 的 下 一 个 mbuf 
1299-1302 如 果 带 外 数据 未 保存 在 此 mbuf 中 ， 则 从 cnt 中 减 去 mbuf 中 的 字 节 数 ， 处 理 链 中 
的 下 一 个 mbuf。 因 为 只 有 当 紧 急 数据 移 量 指向 接收 报 文 段 时 ， 才 会 调用 此 函数 ， 所 以 ， 如 果 
链 已 结束 ， 不 存在 下 一 个 mbuf， 则 执行 break 语 句 ， 跳 转 到 标注 panic 处 。 


29.9 ”处 理 已 接收 的 数据 


tcp_input 接 着 提取 收 到 的 数据 (如 果 存 在 )， 将 其 添加 到 插口 接收 缓存 ， 或 者 放 入 插口 
的 乱 序 重组 队列 中 。 图 29-22 给 出 了 完成 此 项 功能 的 代码 。 
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1094 dodata: /* XXX */ tcp_input.c 
1095 /* 
1096 * Process the segment text, merging it into the TCP sequencing queue, 
1097 * and arranging for acknowledgment of receipt if necessary. 
1098 * This process logically involves adjusting tp-»rcv, wnd as data 
1099 * is presented to the user (this happens in tcp usrreq.c, 
1100 * case PRU RCVD). If a FIN has already been received on this 
1101 * connection then we just ignore the text. 
1102 */ 
1103 if ((ti-»ti len || (tiflags & TH FIN)) && 
1104 TCPS HAVERCVDFIN(tp-»t state) == 0) ( 
1105 TCP REASS(tp, ti, m, so, tiflags); 
1106 /* 
1107 * Note the amount of data that peer has sent into 
1108 * our window, in order to estimate the sender's 
1109 * buffer size. 
1110 */ 
1111 len = so-»so,rcv.sb hiwat - (tp-»rcv,.adv - tp-»rcv nxt); 
1112 ) else ( 
1113 m freemím); 
1114 tiflags &- ^TH FIN; 
1115 ) . 
tcp input.c 


图 29-22 tcp_input 函 数 : 把 收 到 的 数据 放 入 插口 接收 队列 


1094-1105 报 文 段 数据 将 被 处 理 ， 如 果 : 

1) 接收 数据 的 长 度 大 于 0， 或 者 FIN 标 志 置 位 ; 并 且 

2) 连接 还 未 收 到 FIN; 

则 调用 宏 TCP_REASS 处 理 数据 。 如 果 数 据 次 序 正确 (如 ， 连 接 等 待 接收 的 下 一 序号 )， 置 位 延 
迟 ACK 标 志 ， 增 加 rcv._nxt， 并 把 数据 添加 到 插口 的 接收 缓存 中 。 如 果 数 据 次 序 错误 ， 宏 会 
调用 tcp_reass 函 数 ， 把 数据 加 入 到 连接 的 重组 队列 中 (新 到 数据 有 可 能 填充 队列 中 的 缺口 ， 
从 而 将 已 排队 的 数据 添加 到 插口 的 接收 缓存 中 )。 

前 面 介绍 过 ， 宏 的 最 后 一 个 参数 (tiflags) 是 可 修改 的 。 特 别 地 ， 如 果 数 据 次 序 错误 ， 
tcp_reass 令 tiflags 等 于 0， 清 除 FIN 标 志 (如 果 它 已 置 位 )。 这 也 就 是 为 什么 即使 报 文 段 中 
没有 数据 ， 只 要 FIN 置 位 ，if 语 句 也 为 真 。 

考虑 下 面 的 例子 。 连 接 建立 后 ， 发 送 方 立即 发 送 报 文 段 : 一 个 携带 字 节 1~1024， 另 一 个 
携带 字 节 1025~2048， 还 有 一 个 未 带 数 据 的 FIN。 第 一 个 报 文 段 丢失 ， 因 此 ， 第 二 个 报 文 段 到 
达 时 ( 字 节 1025~2048)， 接 收 方 将 其 放 人 乱 序 重组 队列 ， 并 立即 发 送 ACK。 当 第 三 个 带 有 FIN 
标志 的 报 文 段 到 达 时 ， 图 29-22 中 的 代码 被 执行 。 即 使 数据 长 度 等 于 0， 因 为 FIN 置 位 ， 导 致 调 
用 TCP_REASS， 它 接着 调用 tcp_reass。 因 为 ti_seq(2049，FIN 的 序号 ) 不 等 于 rcv_nxt 
(1)，tcp_reass 返 回 0( 图 2 7 -23)。 在 TCP_REASS 宏 中 ，tiflags 被 设 为 0， 从 而 清除 了 
FIN 标 志 ， 阻 止 后 续 代码 (图 29-10) 继 续 处 理 FIN，。 

猜测 对 端 发 送 缓存 大 小 
1106-1111 计算 1en， 实 际 上 是 在 猜测 对 端 发 送 缓 存 的 大 小 。 考 虑 下 面 的 例子 。 插 口 接收 
缓存 大 小 等 于 8192(Net/3 的 默认 值 )， 因 此 ，TCP 在 SYN 中 通告 窗口 大 小 为 8192。 之 后 收 到 第 
一 个 报 文 段 ， 携 带 字 节 1~1024。 图 29-23 给 出 了 在 TCP_REASS 增 加 rcv_nxt 以 反应 收 到 的 数 


据 后 接收 空间 的 状态 。 


£29€* TCP6)4r A(HA) 791 


So rcv.sSb hiwat - 8192 





图 29-23 大 小 为 8192 的 接收 窗口 收 到 字 节 1~1024 后 的 状态 
此 时 ， 经 计算 ，1len 等 于 1024。 对 端 向 接收 窗口 发 送 更 多 数据 后 ，1en 值 将 增加 ， 但 绝 不 
会 超过 对 端 发 送 缓 存 的 大 小 。 前 面 介绍 过 ， 图 29-15 中 对 变量 max_sndwnqd 的 计算 ， 是 在 猪 测 
对 端 接收 缓存 的 大 小 。 
事实 上 ， 变 量 len 从 未 被 使 用 。 它 是 从 Net/1 遗 留 下 来 的 ，l1en 计 算 后 被 存储 到 
TCPJz4]3k&jmax rcvd X €T: 


if (len > tp-»max rcvd) 
tp-»2max rcvd = len; 


但 即使 在 Net1 中 ， 变 量 max_rcvd 也 未 被 使 用 。 


1112-1115 如 果 len 等 于 0， 且 FIN 标 志 未 置 位 ， 或 者 连接 上 已 收 到 了 FIN， 则 丢弃 保存 接 
收报 文 段 的 mbuf 链 ， 并 清除 FIN。 


29.10 FIN 处 理 


tcp_input 的 下 一 步 ， 在 图 29-24 中 给 出 ， 处 理 FIN 标 志 。 





iie T tcp input.c 
1117 * If FIN is received ACK the FIN and let the user know 
1118 * that the connection is closing. 
1119 *, 
1:20 if (tiflags & TH FIN) { 
1121 if (TCPS HAVERCVDFIN(tp-»t state) == 0) ( 
1122 Socantrcvmore(so); 
123 tp-»t. flags l= TF ACKNOW; 
1124 tp-»rcv nxts-4; 
1125 ) 
1126 switch (tp-»t state) { 
1127 /* 
1128 * In SVN RECEIVED and ESTABLISHED states 
1129 * enter the CLOSE WAIT state. 
1130 * 了 
1131 case TCPS SYN RECEIVED: 
1132 case TCPS ESTABLISHED: 
1133 tp-»t state = TCPS CLOSE WAIT; 
1134 break; . 
tcp input.c 





图 29-24 tcp inputiWÉr: FIN 处 理 ， 前 半 部 分 


1. 处 理 收 到 的 第 一 个 FIN 
1116-1125 如果 接 收报 文 段 FIN 置 位 ， 并 且 是 连接 上 收 到 的 第 一 个 FIN， 则 调用 
socantrcvmore， 把 插口 设 为 只 读 ， 置 位 TF_ACKNOW， 从 而 立即 发 送 ACK( 无 延迟 )。 


792 TCP/IP Æ £&2: 实现 


rcv_nxt 加 1， 越 过 FIN 占 用 的 序号 。 
1126 FIN 处 理 的 其 余部 分 是 一 个 大 的 switch 语 句 ， 根 据 连接 的 状态 进行 转换 。 注 意 ， 连 接 
处 于 CLOSED、LISTEN 和 SYN_SENT 状 态 时 ， 不 处 理 FIN， 因 为 处 于 这 3 个 状态 时 ， 还 未 收 到 
对 端 发 送 的 SYN， 无 法 同步 接收 序号 ， 也 就 无 法 验证 FIN 序 号 的 有 效 性 。 此 外 ， 连 接 处 于 
CLOSING、CLOSE_WAIT 和 LAST_ACK 状 态 时 ， 也 不 处 理 FIN， 因 为 在 这 3 个 状态 下 收 到 的 
FIN 必 然 是 一 个 重复 报 文 段 。 

2. SYN_RCVD 和 ESTABLISHED 状 态 
1127-1134 如果 连 接 处 于 SYN_RCVD 或 ESTABLISHED 状 态 ， 收 到 FIN 后 ， 新 的 状态 为 
CLOSE_WAIT。 


尽管 在 SYN_RCVD 状 态 下 收 到 FIN 是 合法 的 ， 但 却 极 为 罕见 。 图 24-15 的 状态 图 
未 列 出 这 一 状态 变迁 。 它 意味 着 处 于 LISTEN 状 态 的 插口 收 到 一 个 同时 带 有 SYN 和 
FIN 的 报 文 段 。 或 者 ， 正 在 监听 的 插口 收 到 了 SYN， 连 接 转移 到 SYN_RCVD 状 态 ， 
但 在 收 到 ACK 之 前 ， 先 收 到 了 FIN( 从 分 析 可 知 ，FIN 未 携带 有 效 的 ACK， 否 则 ,图 
29-2 中 的 代码 会 使 连接 转移 到 ESTABLISHED 状 态 )。 


图 29-25 给 出 了 FIN 处 理 的 下 一 部 分 。 


TET 7 tcp. input.c 

1136 * If still in FIN WAIT 1 state FIN has not been acked so 

1137 * enter the CLOSING state. 

1138 */ 

1139 case TCPS FIN WAIT 1: 

1140 tp-»t state = TCPS CLOSING; 

1141 break; 

1142 /* 

1143 * In FIN, WAIT 2 state enter the TIME WAIT state, 

1144 * starting the time-wait timer, turning off the other 

1145 * standard timers. 

1146 */ 

1147 case TCPS FIN WAIT 2: 

1148 tp-»t state = TCPS TIME WAIT; 

1149 tcp, canceltimers(tp); 

1150 tp-»t, timer[TCPT 2MSL] = 2 * TCPTV MSL; 

1151 soisdisconnected(so); 

1152 break; 

1153 /* 

1154 * In TIME WAIT state restart the 2 MSL time wait timer. 

1155 */ 

1156 case TCPS TIME WAIT: 

1157 tp-»t timer[TCPT 2MSL] = 2 * TCPTV MSL; 

1158 break; 

1159 } 

1160 } . 
tcp input.c 





图 29-25 tcp input: FIN 处 理 ， 后 半 部 分 


3. FIN_WAIT_1 状 态 
1135-1141 因为 报 文 段 的 ACK 处 理 已 结束 ， 如 果 处 理 FIN 时 ， 连 接 处 于 FIN_WAIT_1 状 态 ， 
意味 着 连接 两 端 同时 关闭 连接 一 一 两 端 发 送 的 两 个 FIN 在 网 络 中 交错 。 连 接 进入 CLOSING 状 态 。 
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4. FIN. WAIT 2R 5 
1142-1148 收 到 FIN 将 使 连接 进入 TIME_WAIT 状 态 。 当 在 FIN_WAIT_1 状 态 收 到 携带 ACK 
和 FIN 的 报 文 段 时 (典型 情况 )， 尽 管 图 24-15 显 示 连 接 直接 从 FIN_WAIT_1 转 移 到 TIME_WAIT 
状态 ， 但 在 图 29-11 中 处 理 ACK 时 ， 连 接 实际 已 进入 FIN_WAIT_2 状 态 。 此 处 的 FIN 处 理 再 将 
连接 转 到 TIME_WAIT 状 态 。 因 为 ACK 在 FIN 之 前 处 理 ， 所 以 连接 总 会 经 过 FIN_WAIT_2 状 态 ， 
尽管 是 暂时 性 的 。 

5. 启动 TIME_WAIT 定 时 器 
1149-1152 关闭 所 有 等 待 的 TCP 定 时 器 ， 并 启动 TIME_WAIT 定 时 器 ， 时 限 等 于 MSL( 如 果 
接收 报 文 段 中 包含 ACK 和 FIN， 图 29-11 中 的 代码 会 启动 FIN_WAIT_2 定 时 器 )}。 插 口 断 开 连 接 。 

6. TIME_WAIT 状 态 
1153-1159 ”如 果 在 TIME_WAIT 状 态 时 收 到 FIN， 说 明 这 是 一 个 重复 报 文 段 。 与 图 29-14 中 
的 处 理 类 似 ， 启 动 TIME_WAIT 定 时 器 ， 时 限 等 于 两 倍 的 MSL。 


29.11 最 后 的 处 理 


图 29-26 给 出 了 tcp_input 函 数 中 首部 预测 失败 时 ， 较 慢 的 执行 路 径 中 最 后 一 部 分 的 代 
码 ， 以 及 标注 dropafterack。 


1161 if (so-»so options & SO_DEBUG) tep_input.c 
1162 tcp.trace(TA INPUT, ostate, tp, &tcp saveti, 0); 
1163 /* 
1164 * Return any desired output. 
1165 */ 
1166 if (needoutput || (tp-»t, flags & TF, ACKNOW) ) 
1167 (void) tcp output (tp) ; 
1168 return; 
1169 dropafterack: 
1170 /* 
1171 * Generate an ACK dropping incoming segment if it occupies 
1172 * sequence space, where the ACK reflects our state. 
1173 * o 
1174 if (tiflags & TH RST) 
1175 goto drop; 
1176 m freem(m); 
1177 tp-»t flags |= TF. ACKNOW; 
1178 (void) tcp. output (tp); 
1179 return; P 
tcp tnput.c 


图 29-26 tcp input: 最 后 的 处 理 
1. SO_DEBUG 插口 选项 
1161-1162 如果 选 用 了 SO__DEBUG 插 口 选项 ， 则 调用 tcp_trace 向 内 核 的 环形 缓存 中 添 
加 记录 。 回 想 一 下 ， 图 28-7 中 的 代码 同时 保存 了 原 有 连接 状态 ，IP 和 TCP 的 首部 ， 因 为 函数 有 
可 能 改变 这 些 值 。 
2. 调用 tcp_output 
1163-1168 如 果 needoutput 标 志 置 位 (图 29-6 和 图 29-15)， 或 者 需要 立即 发 送 ACK， 则 调 


用 tcp_output。 
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3. dropafterack 


1169-1179 


只 有 当 RST 标 志 未 置 位 时 ， 才 会 生成 ACK( 带 有 RST 的 报 文 段 不 会 被 确认 )， 释 


放 保 存 接 收报 文 段 的 mbuf 链 ， 调 用 tcp_output 立 即 发 送 ACK。 
E29-27£& S tcp. input. 


1180 
1181 
1182 
1183 
1184 
1185 
1186 
1187 
1188 
1189 
1190 
1191 
1192 
1193 
1194 
1195 
1196 
1197 
1198 
1199 
1200 


1201 
1202 
1203 
1204 
1205 
1206 
1207 
1208 
1209 
1210 
1211 
1212 } 


tcp. input.c 
dropwithreset: cp-mp 


/* 
* Generate an RST, dropping incoming segment. 
* Make ACK acceptable to originator of segment. 


* Don't bother to respond if destination was broadcast/multicast. 


*/ 
if ((tiflags & TH RST) || m-»m flags & (M BCAST | M MCAST) |I 
IN MULTICAST(ti-»ti, dst.s addr)) 
goto drop; 


if (tiflags & TH, ACK) 

tcp .respond(tp, ti, m, (tcp seq) 0, ti-»ti,ack, TH RST); 
eise ( 

if (tiflags & TH, SYN) 

ti->ti_len++; 
tcp respond(tp, ti, m, ti->ti_seq + ti->ti_len, (tcp seq) 0, 
TH RST | TH ACK); 

H 
/* destroy temporarily created socket */ 
if (dropsocket) 

(void) soabort (so); 
return; 


drop: 


/* 
* Drop space held by incoming segment and return. 
*/ 
if (tp && (tp-»t inpcb-»inp socket-»so options & SO DEBUG)) 
tcp trace(TA DROP, ostate, tp, &tcp saveti, 0); 
m freem(m); 
/* destroy temporarily created socket */ 
if (dropsocket) 
(void) soabort (so); 
return; 


tcp. input.c 


图 29-27 tcp inputtRZk: 最 后 的 处 理 


4. dropwithreset 


1180-1188 除了 接收 报 文 段 也 有 RST, 或 者 接收 报 文 段 是 多 播 和 广播 报 文 段 的 情况 之 外 ,应 发 送 
RST。 绝 不 允许 因为 响应 RST 而 发 送 新 的 RST, 这 将 引起 RST 风 暴 ( 两 个 端点 间 连 续 不 断 地 交换 RST)。 


此 处 的 代码 存在 与 图 28-16 同 样 的 错误 : 它 不 检查 接收 报 文 段 的 目的 地 址 是 否 为 


广播 地 址 。 
类 似 地 ，IN_MULTICAST 的 目的 地 址 参数 应 转换 为 主机 字 节 序 。 


5. RST 报 文 段 的 序号 和 确认 序号 


1189-1196 RST 报 文 段 的 序号 字段 值 、 确 认 字 段 值 和 ACK 标 志 取 决 于 接收 报 文 段 中 是 否 带 


有 ACK。 


图 29-28 总 结 了 生成 RST 报 文 段 中 的 这 些 字段 。 
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生成 的 RST 报 文 段 


带 有 ACK 接收 到 的 确认 字段 | o TH.RST 
TAS ACK 0 接收 到 的 序号 字段 TH_RSTITH_ACK 


图 29-28 生成 RST 报 文 段 各 字段 的 值 


正常 情况 下 ， 除 了 起 始 的 SYN( 图 24-16)， 所 有 报 文 段 都 带 有 ACK。tcp._respond 的 第 
四 个 参数 是 确认 序号 ， 第 五 个 参数 是 序号 。 

6. 拒绝 连接 
1192-1193 如果 SYN 置 位 ， 则 ti_Len 必 须 加 1， 从 而 生成 RST 的 确认 字段 比 收 到 的 SYN 报 
文 段 的 起 始 序号 大 1。 如 果 到 达 的 SYN 请 求 与 不 存在 的 服务 器 建立 连接 ， 会 执行 这 一 段 代码 。 
此 时 ， 由 于 图 28-6 中 的 代码 找 不 到 请 求 的 Internet PCB， 控 制 跳 转 到 qropwithreser。 但 为 
了 使 发 送 的 RST 能 被 对 端 接受 ， 报 文 段 必须 确认 SYN( 图 28-18)。 卷 1 的 18.14 节 举例 说 明了 这 
种 类 型 的 RST。 

最 后 请 注意 ，tcp_respond 利 用 保存 接收 报 文 段 的 第 一 个 mbuf 构 造 RST， 并 且 释 放 链 上 
的 其 他 mbuf。 当 第 一 个 mbuf 最 终 到 达 设 备 驱 动 程序 后 ， 它 也 会 被 丢弃 。 

7. 释放 临时 创建 的 插口 | 
1197-1199 ”如 果 在 图 28-7 中 为 监听 的 服务 器 创建 了 临时 的 插口 ， 但 图 28-16 中 的 代码 发 现 接 
收报 文 段 有 错误 ， 它 会 置 位 drop socket。 如 果 出 现 了 这 种 情况 ， 插 口 在 此 处 被 释放 。 

8. 丢弃 (不 带 ACK 或 RST) 
1201-1206 如果 接 收报 文 段 被 丢弃 ， 且 不 生成 ACK 或 RST， 则 调用 tcp_trace。 如 果 
So_DEBUG 置 位 且 生 成 了 ACK， 则 tcp_output 将 向 内 核 的 环形 缓存 中 添加 一 条 跟踪 记录 。 
如 果 SO_DEBUG 置 位 上 且 生成 了 RST， 系 统 不 会 为 RST 添 加 新 的 跟踪 记录 。 
1207-1211 释放 保存 接收 报 文 段 的 mbuf 链 。 如 果 dropsocket 非 零 ， 则 释放 临时 创建 的 插 
He 


29.12 实现 求 精 


为 了 加 速 TCP 处 理 而 进行 的 优化 与 UDP 类 似 (23.12 节 )。 应 利用 复制 数据 计算 检验 和 ， 并 
避免 在 处 理 中 多 次 遍历 数据 。[Daiton et al. 1993] 讨 论 了 这 些 修订 。 

连接 数 增加 时 ， 对 TCP PCB 的 线性 搜索 也 是 一 个 处 理 瓶 颈 。[McKenney and Dove 1992] 讨 
论 了 这 个 问题 ， 利 用 哈 希 表 替 代 了 线性 搜索 。 

[Partridge 1993] 介 绍 了 Van Jacobson 开 发 的 一 个 用 于 研究 目的 的 协议 实现 ， 极 大 地 减少 了 
TCP 的 输入 处 理 。 接 收 数据 分 组 首先 由 IP 进 行 处 理 (RISC 系 统 中 约 有 25 条 指令 )， 之 后 由 分 用 
器 (demultiplexer) 寻 找 PCB( 约 10 条 指令 )， 最 后 由 TCP 处 理 ( 约 30 条 指令 )。 这 30 条 指令 完成 了 首 
部 预测 ， 并 计算 伪 首 部 检验 和 。 如 果 数 据 报 文 段 通过 了 首部 预测 ， 且 应 用 进程 正 等 待 接收 数 
据 ， 则 复制 数据 到 应 用 进程 缓存 ， 计 算 TCP 检 验 和 并 完成 验证 (一 次 遍历 中 完成 数据 复制 和 检 
验 和 计算 )。 如 果 TCP 首 部 预测 失败 ， 则 执行 TCP 输 入 处 理 中 较 慢 的 路 径 。 


29.13 首部 压缩 
下 面 介 绍 TCP 首 部 压缩 。 尽 管 首部 压缩 不 是 TCP 输 入 处 理 的 一 部 分 ， 但 需要 彻底 了 解 TCP 




















的 工作 机 制 后 ， 才 能 很 好 地 理解 首部 压缩 。RFC 1144[Jacobson 1994a] 中 详细 定义 了 首部 压缩 ， 
因为 Van Jacobson 首 先 提出 了 这 一- 算 靶 ， 通 常 也 称 为 VJ 首部 压缩 。 本 节 的 目的 不 是 详细 讨论 
首部 压缩 的 源 代码 (RFC 1144 给 出 了 实现 代码 ， 其 中 有 很 好 的 注释 ， 程 序 量 与 tcp_output 差 
不 多 )， 而 是 概括 性 地 介绍 一 下 算法 的 思想 。 请 注意 区 分 首部 预测 (28.4 节 ) 和 首部 压缩 


29.13.1 引言 


多 数 的 SLIP 和 PPP 实 现 支持 首部 压缩 。 尽 管 首部 压缩 ， 在 理论 上 ， 适 用 于 任何 数据 链 路 ， 
但 主要 还 是 面向 慢 速 串 行 链 路 。 首部 压缩 只 处 理 TCP 报 文 段 一 一 与 其 他 的 卫 协 议 无 关 (如 ICMP、 
IGMP、UDP 等 等 )。 它 能 够 把 IP/TCP 组 合 首部 从 正常 的 40 字 节 压 缩 到 只 有 3 字 节 ， 从 而 降低 了 
交互 性 应 用 ， 如 远程 登录 或 Telnet 中 TCP 报 文 段 的 大 小 ， 从 典型 的 41 字 节 三 少 到 只 剩 4 字 市 
一 一 大 大 提高 了 慢 速 串 行 链 路 的 效率 。 

串 行 链 路 的 两 端 ， 每 端 都 维护 着 两 个 连接 状态 表 ， 一 个 用 于 数据 报 的 发 送 ， 另 一 个 用 于 
数据 报 的 接收 。 每 张 表 最 多 保存 256 条 记录 ， 但 典型 的 只 有 16 条 ， 即 同一 时 间 内 最 多 允许 16 条 
不 同 的 TCP 连 接 执 行 首部 压缩 算法 。 每 条 记录 中 保存 一 个 8 bit 的 连接 ID( 限 制 记录 数 最 多 只 能 
为 256)、 某 些 标 志和 最 近 接 收 /发 送 的 数据 报 的 未 被 压缩 的 首部 。96 bit 的 插口 对 可 惟一 确定 一 
条 连接 一 一 源 端 1P 地 址 和 TCP 端 口 、 目 的 IP 地 址 和 TCP 端 口 一 一 这 些 信息 都 保存 在 未 压缩 的 首 
部 中 。 图 29-29 举 例 说 明了 这 些 表 的 结构 。 





因为 TCP 连 接 是 全 双 工 的 ， 在 两 个 方向 的 数据 流 上 都 可 执行 首部 压缩 算法 。 连 接 两 端 必 
须 同 时 实现 压缩 和 解压 缩 。 同 一 条 连接 在 两 端的 表 中 都 会 出 现 ， 如 图 29-29 所 示 。 在 这 个 例子 
上 部 的 两 张 表 中 ， 连 接 ID 等 于 1 的 表 项 的 源 端 了 了 地 址 都 等 于 128.1.2.3， 源 端 TCP 端 口号 都 等 于 
1500， 目 的 也 地 址 等 于 192.3.4.5， 目 的 TCP 端 口号 都 等 于 25 。 在 底部 的 两 张 表 中 ， 连 接 ID 等 
于 2 的 记录 保存 了 同一 条 连接 反方 向 数据 流 的 信息 。 
发 送 连接 状态 表 接收 连接 状态 表 
标号 标志 。” ”最 近 的 IPATCP 首 部 


标号 标志 。 ”最近 的 IPATCP 首 部 
0 














E {128.1.2.3, 1500, 192.3.4.5, 25} 
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接收 连接 状态 表 发 送 连接 状态 表 
标号 标志 ”最 近 的 IPATCP 首 部 最 近 的 IPZTCP 首 部 
0 
1 


2 [192.3.4.5, 25, 128.1.2.3, 1500) 
15 


图 29-29 链 路 (如 SLIP 链 路 ) 两 端的 一 组 连接 状态 表 
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我 们 在 图 29-29 中 利用 数组 表示 这 些 表 ， 但 在 源 代码 中 ， 表 项 定义 为 一 个 结构 ， 连 接 状 态 
表 定 义 为 这 些 结构 组 成 的 环形 链表 ， 最 近 一 次 用 过 的 结构 位 于 表 头 。 

因为 连接 两 端 都 保存 了 最 近 用 过 的 未 压缩 的 数据 报 首部 ， 所 以 只 需 在 链 路 上 传送 当前 
数据 报 与 前 一 数据 报 不 同 的 字段 (及 一 个 特殊 的 前 导 字 节 ， 指 明 后 续 的 是 哪 一 个 字段 )。 因 
为 某 些 首部 字段 在 相 邻 的 数据 报 之 间 不 会 变化 ， 而 其 他 的 首部 字段 变化 也 很 小 ， 这 种 差分 





处 理 是 压缩 算法 的 核心 。 首 部 压缩 只 适用 于 IP 和 TCP 首 部 一 一 TCP 报 文 段 的 数据 部 分 不 
变 。 
图 29-30 给 出 了 发 送 方 利用 首部 压缩 算法 ， 在 串 行 链 路 上 发 送 卫 数据 报时 采取 的 步骤 。 
待 发 送 的 IP 
数据 报 






非 TCP 报 文 或 不 可 IP 型 
压缩 的 TCP 报 文 






检查 数据 报 


其 他 TCP 








在 连接 表 中 寻找 匹 | 找到 COMPRESSED_TCP 型 


配 的 96-bit 插 口 对 





的 IPZTCP 首 部 










压缩 
未 找到 


| 在 连接 表 记 录 中 . 
保存 未 压缩 的 
IPATCP 首 部 


图 29-30 发 送 方 采 用 首部 压缩 时 的 步 又 


接收 方 必须 能 够 识别 下 面 3 种 类 型 的 数据 报 : 

1) IP 型 数据 报 ， 前 导 字 节 的 高 位 4 比特 等 于 4。 这 也 是 IP 首 部 中 正常 的 IP 版 本 号 (图 8-8)， 
说 明 链 路 上 发 送 的 是 正常 的 、 未 压缩 的 数据 报 。 

2) COMPRESSED_TCP 型 数据 报 ， 前 导 字 节 的 最 高 位 置 为 !， 类 似 于 IP 版 本 号 介 于 8 和 15 之 
间 ( 剩 余 的 7bit 由 压缩 算法 使 用 )， 说 明 链 路 上 发 送 的 是 压缩 过 的 首部 和 未 压缩 的 数据 ， 接 下 来 
我 们 还 会 谈 到 这 种 类 型 的 数据 报 。 

3) UNCOMPRESSED_TCP 型 数据 报 ， 前 导 字 肖 的 高 位 4 比特 等 于 7， 说 明 链 路 上 发 送 的 是 
正常 的 、 未 压缩 的 数据 报 ， 但 IP 的 协议 字段 (等 于 6， 对 TCP) 被 替换 为 连接 ID， 接 收 方 可 据 此 
从 连接 状态 表 中 找到 正确 的 记录 。 

接收 方 查看 数据 报 的 第 一 个 字 节 ， 即 前 导 字 节 ， 确 定 其 类 型 ， 实 现代 码 参见 图 5-13。 图 5- 
16 中 ， 发 送 方 调用 sl1_compress_tcp 确 认 TCP 报 文 段 是 可 压缩 的 ， 函 数 返回 值 与 数据 报 首 
字 节 逻辑 或 后 ， 结 果 依 然 保 存在 首 字 节 中 。 

图 29-31 列 出 了 链 路 上 传送 的 前 导 字 节 ， 其 中 4 位 “-” 表 示 正 常 的 IP 首 部 长 度 字 段 。7 位 
“C, I, P, S, A, WAE” 指明 后 续 的 是 哪些 可 选 字段 ， 后 面 会 简单 地 介绍 这 些 字母 的 含 
义 。 
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使 用 表 中 最 老 的 一 
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链 路 上 传送 0 1 0 0 - - IP 
cx. HL 
(Hr 0 1 1 1 - ~- - - UNCOMPRESSED TCP 
1 C IP S A W U COMPRESSED TCP 


图 29-31 链 路 上 传送 的 前 导 字 节 
图 29-32 给 出 了 使 用 压缩 算法 之 后 ， 不 同类 型 的 完整 的 下 数据 报 。 
í IP 数 据 报 的 头 4bit 





JETCP4g x |0100 协议 =TCP 0-65515 字 节 的 IP 数 据 


ie |, 20st ts 


TCP 报 文 协议 =TCP 20-60 字 节 的 TCP 首 部 0-65495 字 节 的 TCP 数 据 


20-60 字 节 的 IP 首 部 
[IP 首部 | 
0-654953: 5 TCP IR 


协议 = 连接 ID 20-60 字 节 的 TCP 首 部 
COMPRESSED_TCP: e | 0-65495 字 节 和 的 TCP 数 据 
3-16 字 节 
压缩 的 TCP 
首部 


图 29-32 采用 首部 压缩 后 的 不 同类 型 的 于 数据 报 


图 中 给 出 了 两 个 IP 型 数据 报 : 一 个 携带 了 非 TCP 报 文 段 ( 如 UDP、ICMP 或 IGMP 协 议 报 文 
段 )， 另 一 个 携带 了 TCP 报 文 段 。 这 是 为 了 说 明 做 为 IP 型 数据 报 发 送 的 TCP 报 文 段 与 做 为 
UNCOMPRESSED_TCP 型 数据 报 发 送 的 TCP 报 文 段 间 的 差异 : 前 导 字 节 的 高 位 4 比特 互 不 相同 ， 
类 似 于 IP 首 部 的 协议 字段 。 

如 果 IP 数 据 报 的 协议 字段 不 等 于 TCP， 或 者 协议 是 TCP， 但 下 列 条 件 之 一 为 真 ， 都 不 会 采 
用 首部 压缩 算法 。 

。 数 据 报 是 一 个 卫 分 片 : 分 片 偏 移 量 非 零 或 者 分 片 标志 置 位 ; 

。SYN、FIN 或 RST 中 的 任何 一 个 置 位 ; 

。ACK 标 志 未 置 位 。 

上 述 3 个 条 件 中 只 要 有 一 个 为 真 ， 都 将 作为 下 型 数据 报 发 送 。 

此 外 ， 即 使 数据 报 携带 了 可 压缩 的 TCP 报 文 段 ， 压 缩 算法 也 可 能 失败 ， 生 成 
UNCOMPRESSED_TCP 型 的 数据 报 。 可 能 因为 当前 数据 报 与 连接 上 发 送 的 上 一 个 数据 报 比较 
时， 有 些 特殊 字段 发 生 了 变化 ， 而 正常 情况 下 ， 对 于 给 定 的 连接 ， 它 们 应 该 不 变 ， 从 而 导致 
压缩 算法 无 法 反映 存在 的 变化 。 例 如 ，TOS 字 段 ， 分 片 标志 位 。 此 外 ， 如 果 某 些 字 段 数值 的 
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益 异 赵 过 65535， 压 缩 算 法 也 会 失败 。 
29.13.2 首部 字段 的 压缩 


下 面 介绍 如 何 压缩 图 29-33 中 给 出 的 了 和 TCP 的 首部 字段 ， 阴 影 字段 指 对 于 给 定 连 接 ， 正 
常情 况 下 不 会 发 生变 化 的 字段 。 
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图 29-33 组 合 的 IP 和 和 TCP 首部 :阴影 字段 通常 不 变化 


如 果 连 接 上 发 送 的 前 一 个 报 文 段 与 当前 报 文 段 之 间 ， 有 阴影 字段 发 生变 化 ， 则 压缩 算法 
失败 ， 报 文 段 被 直接 发 送 。 图 中 未 列 出 IP 和 TCP 选 项 ， 但 如 果 它 们 存在 ， 且 这 些 选项 字段 发 
生 了 变化 ， 则 报 文 段 也 不 压缩 ， 而 被 直接 发 送 (习题 29.7)。 

如 果 阴 影 字段 均 木 变化 ， 即 使 算法 只 传输 韭 阴 影 字段 ， 也 会 节省 50% 的 传输 容量 。VJ 首 
部 压缩 甚至 做 得 更 好 ， 图 29-34 给 出 了 压缩 后 的 IPATCP 首 部 格式 。 

最 小 的 压缩 后 的 IP/TCP 首 部 只 有 3 个 字 节 : 第 一 个 字 节 (标志 比特 )， 加 上 16 bit 的 TCP 检 验 
和 。 为 了 防止 可 能 的 链 路 错误 ， 一 般 不 改动 TCP 检 验 和 (SLIP 不 提供 链 路 层 的 检验 和 ， 尽 管 
PPP 提 供 一 个 )。 
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字 节 数 es 标志 位 : 链 路 上 发 送 的 第 一 个 字 节 
connid (C) ! 如 果 C= 1 连接 ID 
TCP 检 验 和 不 变 16-bit TCP 检 验 和 ， 必 选 
0,1,3! urgoff (U) ! ARU = 1TCP 紧 急 数据 偏 移 量 
!l222222-22222--4 
0, x Awin (W) RUE W- 1TCP 窗 口 大 小 差 什 
Qu3 Aack (A) 如 果 4 = 1:TCP 确 认 序号 差 值 
Lo- 
0,1,3i Aseq (S) | 如 果 S= LTCPJE SEHR 
LL -| 
0,131 Aipid (D) | RI 1:IP 标 识 符 差 全 
数据 不 变 
图 29-34 压缩 后 的 IPATCP 首 部 格式 
其 他 的 6 个 字段 : comnid、xzrsgofr、Amwi、Aack、Aseg 和 Aipid， 都 是 可 选 的 。 图 29-34 的 最 
左 侧 列 出 了 各 字段 压缩 后 所 需 的 字 节 数 。 读 者 可 能 认为 压缩 后 的 首部 最 大 应 占用 19 字 节 ， 但 
实际 上 压缩 后 的 首部 中 4 bit 的 SAWU 绝 不 可 能 同时 置 位 ， 因 此 ， 压 缩 首部 最 大 为 16 字 节 ， 后 面 
我 们 还 会 详细 讨论 这 个 问题 。 
第 一 个 字 节 的 最 高 位 比特 必须 设 为 !， 说 明 这 是 COMPRESSED_TCP 型 的 数据 报 。 其 余 7 


bit 中 的 6 个 规定 了 后 续 首 部 中 存在 哪些 可 选 字段 ， 










连接 ID。 如 果 等 于 1， 


连接 ID 连接 ID 不 变 connid= 连 接 ID 

JP 标识 ip_id 已 加 1 Aipid=IP 标 识 符 差 值 
TCP 推 标志 PSH 标 志清 除 PSH 标 志 置 位 

TCP S th_seg 不 变 Aseq=TCP 序 号 差 值 
TCP 确 认 序 号 th_ack 不 变 Aack=TCP 确 认 序 号 差 值 
TCP 窗 口 thn_win 不 变 Awin=TCP 窗 口 字段 差 值 
TCP 紧 急 数据 偏 移 量 URG 标 志 未 置 位 urgoff= 紧 急 数据 偏 移 量 


图 29-35 小 结 了 这 7 bit 的 用 法 。 


标志 等 于 1 说 明 





































图 29-35 压缩 首部 中 的 7 个 标志 比特 
C 如果 C 比 特等 于 0， 则 当前 报 文 段 与 前 一 报 文 段 (无 论 是 压缩 的 或 非 压 缩 的 ) 具 有 相同 的 


则 connid 将 等 于 连接 ID， 其 值 位 于 0~255 之 间 。 


1 如 果 I 比 特等 于 0， 当 前 报 文 段 的 IP 标 识 符 较 前 一 报 文 段 加 1( 典 型 情况 )。 如 果 等 于 1， 
Aipid 等 于 ip_id 的 当前 值 减 去 它 的 前 一 个 值 。 
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P 这 个 比特 复制 自 TCP 报 文 段 中 的 PSH 标 志 位 。 因 为 PSH 标 志 不 同 于 其 他 的 正常 方式 ， 
必须 在 每 个 报 文 段 中 明确 地 定义 这 一 标志 。 

S 如 果 3 比 特等 于 0，TCP 序 号 不 变 。 如 果 等 于 1，Ase4 等 于 th_seq 的 当前 值 减 去 它 的 前 
一 个 值 。 

A 如 果 4 比 特等 于 0，TCP 确 认 序 号 不 变 ( 典 型 情况 )。 如 果 等 于 1，Aack 等 于 th_ack 的 当 
前 值 减 去 它 的 前 一 个 值 。 

W 如 果 W 比 特等 于 0，TCP 窗 口 大 小 不 变 。 如 果 等 于 1，Awin 等 于 th_win 的 当前 值 减 去 
它 的 前 一 个 值 。 

U 如 果 U 比 特等 于 0， 报 文 段 的 URG 标 志 未 置 位 ， 紧 急 数据 偏 移 量 不 变 ( 典 型 情况 )。 如 果 
等 于 1, 说 明 URG 标 志 置 位 ，urgoff 等 于 th_urg 的 当前 值 。 如 果 URG 标 志 未 置 位 时 ， 
紧急 数据 偏 移 量 发 生 改 变 ， 报 文 段 将 被 直接 发 送 ( 这 种 现象 通常 发 生 在 紧急 数据 传送 
完毕 后 的 第 一 个 报 文 段 )。 

通过 字段 的 当前 值 减 去 它 的 前 一 个 值 ， 得 到 需 传输 的 差 值 。 正 常情 况 下 ， 得 到 的 是 一 个 
小 正 数 (Awin 是 个 例外 )。 | 

请 广 意 ， 图 29-34 中 有 5 个 字段 的 长 度 可 变 ， 可 占用 0、1 或 3 字 节 。 

0 字 节 : 对 应 标志 未 置 位 ， 此 字段 不 存在 ; 

1 字 节 : 发 送 值 在 1~255 之 间 ， 只 需 占用 1 字 节 ; 

3 字 节 : 如 果 发 送 值 等 于 0 或 者 在 256~65535 之 间 ， 则 需要 用 3 个 字 节 才能 表示 : 第 一 个 字 节 
全 0， 后 两 个 字 节 保存 实际 值 。 这 种 方法 一 般 用 于 3 个 16 bit 的 值 ，urgofF、Awin 和 Aipid4。 但 如 
果 两 个 32 bit 字 段 Aack 和 Aseg 的 差 值 小 于 0 或 者 大 于 65535， 报 文 段 将 被 直接 发 送 。 

如 果 把 图 29-33 中 不 带 阴影 的 字段 与 图 29-34 中 可 能 的 传输 字段 进行 比较 ， 会 发 现 有 些 字 段 
永远 不 会 被 传输 。 

。 于 总 长 度 字段 不 会 被 传输 ， 因 为 绝 大 多 数 链 路 层 向 接收 方 提 供 接 收 数 据 分 组 的 长 度 。 

* 因为 下 首 部 中 被 传输 的 惟一 字段 是 16 bit 的 IP 标 识 符 ，IP 检 验 和 被 忽略 。 因 为 它 只 在 一 

段 链 路 上 保护 下 首部 ， 每 次 转发 都 会 被 重新 计算 。 


29.13.3 ”特殊 情况 


算法 检查 输入 报 文 段 ， 如 果 出 现 两 种 特定 情况 ， 则 用 前 导 字 节 的 低位 4 比特 一 一 SAWU 
一 一 的 两 种 特殊 组 合 ， 分 别 加 以 表示 。 因 为 紧急 数据 很 少 出 现 ， 如 果 报 文 段 中 URG 标 志 置 位 ， 
并 且 与 前 一 报 文 段 相 比 ， 序 号 与 窗口 字段 都 发 生 了 变化 (意味 着 低位 4 比特 应 为 1011 或 1111)， 
此 种 报 文 段 会 跳 过 压缩 算法 ， 被 直接 发 送 。 因 此 ， 如 果 低 位 4 比特 等 于 1011( 称 为 *S4) 或 
1111( 称 为 *S)， 就 说 明 出 现 了 下 面 两 种 特定 情况 : 
*SA 序号 与 确认 序号 都 增加 ， 差 值 等 于 前 一 报 文 段 的 数据 量 ， 窗 口 大 小 与 紧急 数据 偏 移 
量 不 变 ，URG 标 志 未 置 位 。 采 用 这 种 表示 法 可 以 避免 传送 Aseg 和 Aack。 
如 果 对 端 回 送 终端 数据 ， 那 么 两 个 传输 方向 上 的 数据 报 文 段 中 都 会 经 常 出 现 这 一 现 
象 。 卷 1 的 图 19-3 和 图 19-4， 举 例 说 明了 远程 登录 应 用 中 出 现 的 这 种 类 型 的 数据 。 
*S ”序号 增加 ， 差 值 等 于 前 一 报 文 段 的 数据 量 ， 确 认 序号 、 窗 口 大 小 与 紧急 数据 偏 移 量 
均 不 变 ，URG 标 志 未 置 位 。 采 用 这 种 表示 法 可 以 避免 传送 Aseq。 
这 种 类 型 的 数据 通常 出 现在 单 向 数据 传输 (如 FTP) 的 发 送 方 。 卷 1 的 图 20-1、 图 20-2 
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和 图 20-3 举 例 说 明了 这 种 类 型 的 数据 传输 。 此 外 ， 如 果 对 端 不 回 送 终端 数据 ， 那 么 
在 数据 发 送 方 的 数据 报 文 段 中 也 会 出 现 这 种 现象 。 


29.13.4 实例 


下 面 的 两 个 例子 ， 在 图 1-17 中 的 bsdi 和 s1ip 两 个 系统 间 ， 利 用 SLIP 链 路 传输 数据 。 这 
条 SLIP 链 路 在 两 个 传输 方向 上 都 采用 了 首部 压缩 算法 。 在 主机 bsdi 上 运行 Lcpdump 程 序 ( 卷 1 
的 附录 A)， 保 存 所 有 数据 帧 的 备份 。 这 个 程序 还 支持 一 个 选项 ， 能 够 输出 压缩 后 的 首部 ， 列 
出 图 29-34 中 的 所 有 字段 。 

在 主机 间 已 建立 了 两 条 连接 : 一 条 远程 登录 连接 ， 另 一 条 是 从 bsdi 到 sl1ip 的 文件 传输 
(FTP)。 图 29-36 列 出 了 两 条 连接 上 不 同类 型 数据 帧 出 现 的 次 数 。 


IP 


UNCOMPRESSED_TCP 
l 


COMPRESSED_TCP 
特殊 情况 *SA 

特殊 情况 *S 

一 般 情况 





图 29-36 远程 登录 和 FTP 连接 上 ， 不 同类 型 数据 帧 出 现 的 次 数 


远程 登录 连接 中 ， 在 两 个 传输 方向 上 ，*54 都 出 现 了 75 次 ， 从 而 证 明了 在 对 端 回 显 终端 流 
量 时 ， 这 一 特定 情况 在 两 个 传输 方向 上 都 会 经 常 出 现 。FTP 连 接 中 ， 在 数据 的 发 送 方 ，*5 出 
现 了 325 次 ， 也 证 明了 对 于 单 向 数据 传输 ， 这 一 特定 情况 会 经 常 出 现在 数据 的 发 送 方 。 

FTP 连 接 中 ，IP 型 的 数据 帧 出 现 了 10 次 ， 对 应 于 4 个 带 有 SYN 的 报 文 股 ， 和 6 个 带 有 FIN 的 
报 文 段 。FTP 使 用 了 两 条 连接 : 一 条 用 于 传输 交互 式 命令 ， 另 一 条 用 于 文件 传输 。 

UNCOMPRESSED_TCP 型 数据 帧 一 般 对 应 于 连接 建立 后 的 第 一 个 报 文 段 ， 即 同步 连接 ID 
的 报 文 段 。 这 两 个 例子 中 还 有 少量 的 其 他 类 型 的 报 文 段 ， 主 要 用 于 服务 类 型 设 定 (NeV3 中 的 远 
程 登录 及 FTP 客 户 及 服务 器 都 是 在 连接 建立 后 才 设 定 TOS 字 段 )。 













| 远程 登录 | FTP 
Tk | 输 和 A | m | w^ | m | 
3 | 102 — | 44 | 2 250 
4 94 | 78 
5 7 12 5 2 
6 6 325 5 
7 13 2 1 
8 1 
9 | i 4 1 
a o 


图 29-37 压缩 首部 大 小 的 分 布 
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图 29-37 给 出 了 压缩 首部 大 小 的 分 布 情况 ， 后 4 栏 中 压缩 首部 的 平均 大 小 为 分 别 等 于 3.1、 
4.1、6.0 和 3.3 字 节 ， 与 原来 的 40 字 节 相 比 ， 大 大 提高 了 系统 的 传输 效率 ， 尤 其 对 于 交互 式 连 
接 ， 效 果 更 加 明显 。 

在 FTP 输 入 一 栏 中 ， 压 缩 首部 大 小 为 6 字 节 的 报 文 段 有 325 个 ， 其 中 绝 大 多 数 只 携带 了 值 等 
于 256 的 Aack 字 段 ， 因 为 256 大 于 255， 所 以 必须 用 3 个 字 节 表示 。SLIPMTU 等 于 296， 因 此 ， 
TCP 采 用 了 256 的 MSS。 在 FTP 输 出 一 栏 中 ， 压 缩 首部 大 小 为 3 字 节 的 报 文 段 有 250 个 ， 其 中 绝 
大 多 数 都 代表 *5 类 的 特定 情况 (只 有 序号 发 生变 化 )， 差 值 等 于 256。 但 因为 *S 的 序号 差 值 默认 
为 前 一 报 文 段 的 数据 量 ， 所 以 只 需 传 输 前 导 字 节 和 TCP 检 验 和 。 在 FTP 输 出 一 栏 中 ，78 个 压缩 
首部 大 小 为 4 字 节 的 报 文 段 也 属于 同一 情况 ， 只 不 过 IP 标 识 符 也 发 生 了 变化 (习题 29.8)。 


29.13.5 配置 


对 给 定 的 SLIP 或 PPP 链 路 ， 首 部 压缩 必须 被 选 定 后 才能 起 作用 。 配 置 SLIP 链 路 接口 时 ， 
一 般 可 设 定 两 个 标志 : 首部 压缩 标志 和 自动 首部 压缩 标志 。 配 置 命令 是 ifconfig， 分 别 带 
选项 link0 和 1ink2。 正 常情 况 下 ， 由 客户 端 (拨号 主机 ) 决 定 是 否 采用 首部 压缩 算法 ， 服 务 
器 (客户 通过 拨号 接 人 的 主机 或 终端 服务 器 ) 只 选择 是 否 置 位 自动 首部 压缩 标志 。 如 果 客 户 选用 
了 首部 压缩 算法 ， 它 的 TCP 首 先 发 送 一 个 UNCOMPRESSED_TCP 型 的 数据 报 ， 规 定 连 接 ID 。 
如 果 服 务 器 收 到 这 个 数据 报 ， 它 也 开始 采用 首部 压缩 算法 (服务 器 处 于 自动 方式 )， 如 果 未 收 到 
这 个 数据 报 ， 服 务 器 绝 不 会 在 这 条 链 路 上 采用 首部 压缩 。 

PPP 人 允许 在 链 路 建立 时 ， 连 接 双方 共同 协商 传输 选项 ， 其 中 的 一 个 选项 即 是 否 支持 首部 压 
缩 算法 。 1 


29.14 小 结 


本 章 结束 了 我 们 对 TCP 输 入 处 理 的 详细 介绍 。 首 先 介绍 了 如 果 连 接 在 SYN_RCVD 状 态 时 
收 到 了 ACK， 该 如何 处 理 ， 即 如 何 完 成 被 动 打开 、 同 时 打开 或 自 连接 。 

快速 重 传 算法 指 TCP 在 连续 收 到 的 重复 ACK 数 超过 规定 的 门限 值 后 ， 能 够 检 而 到 丢失 的 
报 文 段 并 进行 重 发 ， 即 使 重 传 定时 器 还 未 超时 。Net/3 结 合 了 快速 重 传 算法 与 快速 恢复 算法 ， 
执行 拥塞 避免 算法 而 非 慢 起 动 ， 尽 量 保证 发 送 方 到 接收 方 的 数据 流 不 中 断 。 

ACK 处 理 负责 从 插口 的 发 送 缓存 中 丢弃 已 确认 的 数据 ， 并 且 在 收 到 的 ACK 会 改变 连接 当 
前 状态 时 ， 对 一 些 TCP 状 态 做 特殊 处 理 。 

处 理 接收 报 文 段 的 URG 标 志 ， 如 果 置 位 ， 则 通过 TCP 紧 急 方式 的 处 理 ， 提 取 带 外 数据 。 
这 一 操作 是 非常 复杂 的 ， 因 为 应 用 进程 可 以 利用 正常 的 数据 流 缓存 ， 或 者 特殊 的 带 外 数据 组 
存 接收 带 外 数据 ， 而 且 TCP 收 到 URG 时 ， 紧 急 指针 所 指向 的 数据 可 能 还 未 到 达 。 

TCP 输 入 处 理 结束 时 ， 会 调用 TCP_REASS， 提 取 报 文 段 中 的 数据 放 入 插口 的 接收 缓存 或 
重组 队列 ， 处 理 FIN 标 志 ， 并 晶 在 接收 报 文 段 需要 响应 时 ， 调 用 tcp_output 输 入 响应 报 文 
ER. 

TCP HRE HTSLIPRIPPPSEPAEU — RREECR, BEGEIDIPRITCP H RK RE JA 407. TRAP 
到 约 为 3~6 字 节 ( 典 型 情况 )。 这 是 因为 对 于 给 定 连接 ， 相 邻 两 个 报 文 段 之 间 ， 首 部 的 多 数字 段 
不 会 改变 ， 即 使 有 些 字段 的 值 发 生 了 变化 ， 其 差 值 也 很 小 ， 从 而 可 以 通过 前 导 字 节 中 的 标志 比 
特 ， 指 明 哪些 字段 发 生 了 变化 ， 在 后 续 部 分 只 传输 这 些 字段 的 当前 值 与 前 一 报 文 自 间 的 差 值 。 


29.5 


29.6 


29.7 
29.8 
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客户 与 服务 器 建立 连接 ， 不 考虑 报 文 段 丢失 ， 哪 一 个 应 用 进程 ， 客 户 或 服务 器 ， 首 
先 完成 连接 建立 过 程 ? 

Net/3 系 统 中 ， 监 听 服 务 器 收 到 了 一 个 SYN， 它 同时 携带 了 50 字 节 的 数据 。 会 发 生 
什么 ? 

继续 前 一 个 习题 ， 假 定 客户 没有 重 传 50 字 节 的 数据 ， 而 是 在 对 服务 器 SYN/ACK 报 
文 段 的 确认 中 置 位 FIN 标 志 ， 会 发 生 什 么 ? 

Net/3 客 户 向 服务 器 发 送 SYN， 服 务 器 响应 SYNVACK， 其 中 还 携带 了 50 字 节 的 数据 
和 HRIN 标 志 。 列 出 客户 端 TCP 的 处 理 步 又 。 

卷 1 的 图 18-19 和 REFC 793 的 图 14， 都 给 出 了 出 现 同 时 关闭 时 ， 连 接 双方 交换 的 4 个 报 
文 段 。 但 如 果 连 接 两 端 都 是 Net/3 系 统 ， 出 现 同时 关闭 时 ， 或 者 一 个 Net/3 系 统 的 自 
连接 关闭 时 ， 彼 此 将 交换 6 个 报 文 段 ， 而 不 是 4 个 ， 多 余 出 两 个 报 文 段 是 因为 连接 两 
端 各 自 收 到 对 端的 FIN 后 ， 将 向 对 端 重 发 FIN。 问 题 出 在 什么 地 方 ， 如 何 解决 ? 
RFC 793 第 72 页 建议 ， 如 果 发 送 缓存 中 的 数据 已 被 对 端 确认 , “应 给 用 户 一 个 确认 ， 
指明 缓存 中 已 发 送 且 被 确认 的 数据 (例如 ， 发 送 缓存 返回 时 应 带 有 “OK ”响应 )”。 
NeUV3 是 否 提供 了 这 种 机 制 ? 

RFC 1323 中 定义 的 选项 对 TCP 首 部 压缩 有 何 影 响 ? 

Net/3 对 IP 标 识 符 字 段 的 赋值 方式 ， 对 TCP 首 部 压缩 有 何 影响 ? 


第 30 章 TCP 的 用 户 需 求 


30.1 引言 


本 章 介 绍 TCP 的 用 户 请 求 处 理 函 数 Lcp_usrreg， 它 被 协议 的 pr_usrreq 函 数 调用 ， 处 
理 各 种 与 TCP 插 口 有 关 的 系统 调用 。 此 外 ， 还 将 介绍 tcp._ctloutput， 应 用 进程 调用 
setsockopt 设 定 TCP 插曲 选项 上 时， 会 用 到 它 。 


30.2 tcp usrreq 函 数 


TCP 的 用 户 请 求 函数 用 于 处 理 多 种 操作 。 图 30-1 给 出 了 tcp_usrreq 消 数 的 基本 框架 ， 
其 中 switch 的 语句 体 部 分 将 在 后 续 部 分 逐一 展开 。 图 15-17 中 列 出 了 函数 的 参数 ， 其 具体 含 
义 取 决 于 所 处 理 的 用 户 请 求 。 

45 int Icp-usrreq.c 


16 tcp usrreq(so, req, m, nam, control) 
47 struct socket *so; 


48 int req; 

49 struct mbuf *m, *nam, *control; 

50 { 

51 struct inpcb *inp; 

52 struct tcpcb *tp; 

53 int S; 

54 int error - 0; 

55 int ostate; 

56 if (req -- PRU, CONTROL) 

57 return (in control(so, (int) m, (caddr t) nam, 

58 (struct ifnet *) control)); 

59 if (control && control-»m len) ( 

60 m freem(control); 

61 if (m) 

62 m freem(í(m); 

63 return (EINVAL); 

64 H 

65 s = splnet(); 

66 inp = sotoinpcbíso); 

67 /* 

68 * When a TCP is attached to a socket, then there will be 
69 * a (struct inpcb) pointed at by the socket, and this 
70 * structure will point at a subsidary (struct tcpcb). 
71 */ 

72 if (inp == 0 && req !- PRU ATTACH) ( 

73 Splx(s); 

74 return (EINVAL); /* XXX */ 

75 } 

76 if (inp) { 

77 tp = intotcpcb(inp); 


图 30-1 tcp usrreqif 7i 
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78 /* WHAT IF TP IS 0? */ 
79 ostate - tp-»t, state; 
80 ) else 

81 ostate - 0; 

82 switch (req) ( 


/* Switch cases */ 


276 default: 

277 panic("tcp usrreq"); 

278 } 

279 if (tp && (so-»so options & SO DEBUG)) 

280 tcp trace(TA USER, ostate, tp, (struct tcpiphdr *) 0, req); 
281 Splx(s); 

282 return (error); 

283 ) 





tcp, usrreq.c 
图 30-1 ( 续 ) 


1. in_control 处 理 ijoct1 请 求 
45-58 PRU_CONTROL 请 求 来 自 于 ioct1 系 统 调用 ， 限 数 ijn_control 人 负责 处 理 这 一 请 求 。 

2. 控制 信息 无 效 
59-64 如果 试图 调用 sendmsg， 为 TCP 插口 配置 控制 信息 ， 代 码 将 释放 mbuf， 并 返回 
EINVAL 差 错 代 码 ， 声 明 这 一 操作 无 效 。 
65-66 函数 接着 执行 splnet。 这 种 做 法 极为 保守 ， 因 为 并 非 在 所 有 情况 下 都 需要 锁定 ， 只 
是 为 了 防止 在 case 语 句 中 单个 地 调用 splnet。 我 们 在 图 23-15 中 曾 提 和 到， 调用 splnet 设 定 
处 理 器 的 优先 级 ， 唯 一 的 作用 是 阻止 软 中 断 执行 P 输 入 处 理 ( 它 会 接着 调用 tcp_input)， 但 
却 无 法 阻止 接口 层 接 收 输 入 数据 分 组 并 放 入 到 下 的 输入 队列 中 。 

通过 指向 插口 结构 的 指针 ， 可 得 到 指向 Internet PCB 的 指针 。 只 有 在 应 用 进程 调用 
socket 系 统 调用 ， 发 出 PRU_ATTACH 请 求 时 ， 该 指针 才 人 允许 为 空 。 
67-81 如 果 inp 非 空 ， 当 前 连接 状态 将 保存 在 cstate 中 ， 以 备 国 数 结束 时 可 能 会 调用 
tcp trace, 

下 面 我 们 开始 讨论 单独 的 case 语 句 。 应 用 进程 调用 socket 系 统 调用 ， 或 者 监听 服务 器 
收 到 连接 请 求 ( 图 28-7)， 调 用 sonewconn 函 数 时 ， 都 会 发 出 PRU_ATTACH 请 求 ， 图 30-2 给 出 
了 这 一 请 求 的 处 理 代码 。 


83 7. tcp. usrreq.c 
84 * TCP attaches to socket via PRU, ATTACH, reserving space, 
85 * and an internet control block. 

86 */ 

87 case PRU ATTACH: 

88 if (inp) ( 

89 error - EISCONN; 

90 break; 

91 ) 

92 error = tcp attachí(so); 

93 if (error) 


图 30-2 tcp_usrreq 函 数 : PRU_ATTACH 和 PRU_DETACH 请 求 
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94 break; 

95 if ((so-»so options & SO LINGER) && so-»so linger == 0) 
96 So-»-»so linger = TCP, LINGERTIME; 

97 tp - sototcpcb(so); 

98 break; 

99 /* 

100 * PRU DETACH detaches the TCP protocol from the socket. 
101 * If the protocol state is non-embryonic, then can't 
102 * do this directly: have to initiate a PRU DISCONNECT, 
103 * which may finish later; embryonic TCB's can just 
104 * be discarded here. 

105 */ 

106 case PRU, DETACH: 
107 if (tp-»t state » TCPS LISTEN) 
108 tp - tcp disconnect (tp); 
109 else 
110 tp = tcp. close(tp); 
111 break; 


tcp. usrreq.c 


图 30-2 (£&) 


3. PRU_ATTACH 请 求 
83-94 ”如 果 插 口 结 构 已 经 指向 某 个 PCB， 则 返回 EISCONN 产 错 代 码 。 调 用 tcp_attach 完 
成 处 理 : 分 配 并 初始 化 Internet PCB 和 TCP 控 制 块 。 
95-96 如 果 选 用 了 So_LINGER 播 口 选项 ， 且 拖延 时 间 为 0， 则 将 其 设 为 120 
(TCP. LINGERTIME), 
为 什么 在 PRU_ATTACH 请 求 发 出 之 前 ， 就 可 以 设 定 插 口 选 项 ? 尽管 不 可 能 在 调 
用 socket 之 前 就 设 定 插口 选项 ， 但 sonewconn 也 会 发 送 PRU_ATTACH 请 求 。 它 在 
把 监听 插口 的 so_options 复 制 到 新 建 插口 之 后 ， 才 会 发 送 PRU_ATTACH 请 求 。 此 
处 的 代码 防止 新 建 连 接 从 监听 插口 中 继承 抱 延 时 间 为 0 的 SO_LINGER 选 项 。 
请 注意 ， 此 处 的 代码 有 错误 。 常 量 TCP_LINGERTIME 在 tcp_timer.h 中 初始 
化 为 120， 该 行 的 注释 为 “最 多 等 待 2 分 钟 "。 但 SO_LINGBER 值 也 是 内 核 LsleepP 函 数 
(由 soclose 调 用 ) 的 最 后 一 个 参数 ， 从 而 成 为 内 核 的 Fimeout 函 数 的 最 后 一 个 参数 ， 
单位 为 滴答 ， 而 非 秒 。 如 果 系 统 的 滴答 频率 (hz) 等 于 100， 则 拖延 时 间 将 变 为 1.2 秒 ， 
而 非 2 分 钟 。 
97 ”现在 ，tp 已 指向 插口 的 TCP 控 制 块 。 这 样 ， 如 果 选 定 了 SO_DEBUG 插 口 选项 ， 函 数 结束 
时 就 可 以 输出 所 需 信息 。 
4. PRU_DETACH 请 求 
99-111 close 系 统 调用 在 PRU_DISCONNECT 请 求 失 败 后 ， 将 发 送 PRU_DETACH 请 求 。 如 
果 连 接 尚未 建立 (连接 状态 小 于 ESTABLISHED)， 则 无 需 向 对 端 发 送 任何 信息 。 但 如 果 连 接 已 
建立 ， 则 调用 tcp_disconnect 初 始 化 TCP 的 连接 关闭 过 程 (发 送 所 有 缓存 中 的 数据 ， 之 后 
发 送 FIN)。 
代码 if 语句 的 测试 条 件 要 求 状态 大 于 LISTEN， 这 是 不 正确 的 。 因 为 如 果 连 接 状 态 
等 于 SYN_SENT 或 者 SYN_RCVD， 两 者 部 大 于 LISTEN， 此 时 tcp_disconnect 会 直 
接 调 用 tcp_close。 实 际 上 ， 这 个 case 语 向 可 以 简化 为 直接 调用 tcp_disconnect。 


808 TCP/IP3X|( X2: 实现 


图 30-3 给 出 了 bind 和 1isten 系 统 调用 的 处 理 代码 。 








112 7 tcp usrreq.c 
113 * Give the socket an address. 
114 */ 
115 case PRU BIND: 
116 error - in pcbbind(inp, nam); 
117 if (error) 
118 break; 
119 break; 
120 /* 
121 * Prepare to accept connections. 
122 */ 
123 case PRU,LISTEN: 
124 if (inp-»inp lport == 0) 
125 error - in pcbbind(inp, (struct mbuf *) 0); 
126 if (error == O0) 
127 tp-»t state = TCPS LISTEN; 
128 break; 
tcp usrreq.c 


图 30-3 tcp_usrreq 销 数 ; PRU BINDAÁUPRU LISTENIÉGK 


112-119 PRU_BIND 请 求 的 处 理 只 是 简单 地 调用 in_pcbbind。 
120-128 对 于 PRU_LISTEN 请 求 ， 如 果 揪 口 还 未 绑 定 在 某 个 本 地 端口 上 ， 则 调用 
in_pcbbind 自 动 为 其 分 配 一 个 。 这 种 情况 十 分 少见 ， 因 为 多 数 服 务 器 会 明确 地 绑 定 一 个 知 
名 端口 ， 尽 管 RPC( 远 端 过 程 调 用 ) 服 务 器 一 般 是 绑 定 在 一 个 临时 端口 上 ， 并 通过 Port Mapper 
向 系统 注册 该 端口 ( 卷 1 的 29.4 节 介绍 了 Port Mapper)。 连 接 状 态 变迁 到 LISTEN， 完 成 了 listen 
调用 的 主要 目的 : 设 定 播 口 的 状态 ， 以 便 接受 到 达 的 连接 请 求 (被 动 打开 )。 

图 30-4 给 出 了 connect 系 统 调用 的 处 理 代码 : 客户 发 起 的 主动 打开 。 


129 y tcp. usrreq.c 
130 * Initiate connection to peer. 

131 * Create a template for use in transmissions on this connection. 
132 * Enter SYN_SENT state, and mark socket as connecting. 

133 * Start keepalive timer, and seed output sequence space. 

134 * Send initial segment on connection. 

135 */ 

136 case PRU_CONNECT: 

137 if (inp-»inp lport == 0) ( 

138 error - in pcbbind(inp, (struct mbuf *) 0); 

139 if (error) 

140 break; 

141 ) 

142 error = in pcbconnect(inp, nam); 

143 if (error) 

144 break; 

145 tp-»t template = tcp template(tp); 

146 if (tp-»t template == 0) ( 

147 in, pcbdisconnect (inp); 

148 error - ENOBUFS; 


图 30-4 tcp_usrreq 国 数 : PRU CONNECTiÉZK 
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149 break; 
150 ) 
151 /* Compute window scaling to request.  */ 
152 while (tp-»request, r scale « TCP. MAX WINSHIFT && 
153 (TCP MAXWIN << tp-»request r scale) < so-»so rcv.sb hiwat) 
154 tp-»request r scale-«; 
155 soisconnecting(so); 
156 tcpstat.tocps, connattempt -; 
157 tp-»t,state = TCPS, SYN SENT; 
158 tp-»t timer[TCPT KEEP] = TCPTV. KEEP. INIT; 
159 tp-»iss - tcp iss; 
160 tcp.iss «- TCP ISSINCR / 2; 
161 tcp sendsedqinit (tp); 
162 error - tcp output (tp); 
163 break; 
tcp. usrreq.c 
图 30-4 (2X) 
5. 分 配 临 时 篇 口 


129-141 如果 插曲 还 未 绑 定 在 某 个 本 地 端口 上 ， 调 用 ip_pcbbind 自 动 为 其 分 配 一 个 。 对 
于 客户 端 ， 这 是 很 常见 的 ， 因 为 客户 一 般 不 关心 本 地 端口 值 。 

6. 连接 PCB 
142-144 ”调用 in_pcbconnect， 获 取 到 达 目 的 地 的 路 由 ， 确 定 外 出 接口 ， 验 证 插口 对 不 
重复 。 . 
7. 初始 化 IP 和 TCP 首 部 
145-150 调用 kcpb_template 分 配 mbuf， 保 存 IP 和 TCP 的 首部 ， 并 初始 化 两 个 首部 ， 填 人 
尽 可 能 多 的 信息 。 会 造成 函数 失败 的 唯一 原因 是 内 核 耗 尽 了 mbuf。 

8. 计算 窗口 缩放 因子 
151-154 计算 用 于 接收 缓存 的 窗口 缩放 因子 : 左 移 65535(TCP_MAXWIN)， 直 到 它 大 于 或 等 
于 接收 缓存 的 大 小 (so_rcv .sb_hiwat)。 得 到 的 位 移 次 数 (0~14 之 间 )， 就 是 需要 在 SYN 中 发 
送 的 缩放 因子 值 ( 图 28-7 处 理 被 动 打开 时 ， 有 相同 的 代码 )。 应 用 进程 必须 在 调用 connect 之 
前 ， 设 定 So_RCVBUF 插口 选项 ，TCP 才 会 在 SYN 中 添加 窗口 太 小 选项 ， 否 则 ， 将 使 用 接收 
绥 存 大 小 的 默认 值 (图 24-3 中 的 tcp_recvspace)。 

9. 设 定 插口 和 连接 的 状态 
155-158 调用 soisconnecting， 置 位 播 口 状态 变量 中 恰当 的 比特 ， 设 定 TCP 连 接 状 态 为 
SYN_SENT， 从 而 在 后 续 的 tcp_output 调 用 中 发 送 SYN( 参 见 图 24-16 的 tcp_outlags 值 )。 连 接 
建立 定时 器 启动 ， 时 限 初始 化 为 75 秒 。tcp_output 还 会 启动 SYN 的 重 传 定时 器 ， 如 图 25-16 所 示 。 

10. 初始 化 序号 
159-161 令 初 始 序 号 等 于 全 局 变量 tcp_iss， 之 后 令 tcp_iss 增 加 64 000 
(TCP_ISSINCR 除 以 2)。 在 监听 服务 器 收 到 SYN 并 初始 化 ISS 时 (图 28-17)， 对 tcp_iss 的 相 
同 的 操作 。 接 着 调用 tcp_sendseqinit 初 始 化 发 送 序 号 。 

11. 发 送 初 始 SYN 
162 调用 tcp_output 发 送 初始 YN， 以 建立 连接 。 如 果 tcp_output 返 回 错误 (例如 ，mbuf 
耗 尽 或 没有 到 达 目 的 地 的 路 由 )， 该 差错 代码 将 成 为 Lcp_usrreq 的 返回 值 ， 报 告 给 应 用 进程 。 
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图 30-5 给 出 了 PRU_CONNECT2、PRU_DISCONNECT 和 PRU_ACCEPT 请 求 的 处 理 代 码 。 
164-169 PRU_CONNECT2 请 求 ， 来 自 于 socketpair 系 统 调 用 ， 对 TCP 协 议 无 效 。 
170-183 close 系统 调用 会 发 送 PRU_DISCONNECT 请 求 。 如 果 连 接 已 建立 ， 应 调用 
tcp_disconnect， 发 送 FIN， 执 行 正 常 的 TCP 关 闭 操作 。 





ica 7. icp. usrreq.c 
165 * Create a TCP connection between two sockets. 

166 */ 

167 case PRU CONNECT2: 

168 error - EOPNOTSUPP; 

169 break; 

170 /* 

171 * Initiate disconnect from peer. 

172 * If connection never passed embryonic stage, just drop; 

173 * else if don't need to let data drain, then can just drop anyway, 
174 * else have to begin TCP shutdown process: mark socket disconnecting, 
175 * drain unread data, state switch to reflect user close, and 

176 * send segment (e.g. FIN) to peer. Socket will be really disconnectec 
177 * when peer sends FIN and acks ours. 

178 * 

179 * SHOULD IMPLEMENT LATER PRU, CONNECT VIA REALLOC TCPCB. 

180 */ 

181 Case PRU DISCONNECT: 

182 tp = tcp disconnect (tp); 

183 break; 

184 /* 

185 * Accept a connection. Essentially all the work is 

186 * done at higher levels; just return the address 

187 * of the peer, storing through addr. 

188 */ 

189 Case PRU, ACCEPT: 

190 in setpeeraddr(inp, nam); 

191 break; 





tcp. usrreg.c 


图 30-5 tcp_usrreq 国 数 : PRU CONNECT2. PRU DISCONNECT4f[PRU ACCEPTjSzk 


请 注意 以 “应 该 实现 ”起 头 的 注释 ， 这 是 因为 无 法 接着 使 用 出 现 错误 的 播 口 。 
例如 ， 客 户 调用 connect ， 并 得 到 一 个 错误 ， 它 就 无 法 在 同一 个 插口 上 再 次 调用 
connect ， 而 必须 首先 关闭 插口 ， 调 用 socKket 创 建新 的 插口 ， 在 新 的 插口 上 才能 
再 次 调用 connect。 
184-191 与 accept 系 统 调用 有 关 的 工作 全 部 由 插口 层 和 协议 层 完成 。PRU_ACCEPT 请 求 
只 简单 地 向 应 用 进程 返回 对 端的 IP 地 址 和 端口 号 。 

图 30-6 给 出 了 PRU_SHUTDOWN、PRU_RCVD 和 PRU_SEND 请 求 的 处 理 代码 。 

12. PRU_SHUTDOWN 请 求 
192-200 应 用 进程 调用 shutdown， 禁 止 更 多 的 输出 时 ，soshutdown 会 发 送 
PRU_SHUTDOWN 请 求 。 调 用 socantsendmore 置 位 播 口 的 标志 ， 禁 止 继 续 发 送 报 文 段 。 接 
着 调用 tcp_usrclosed， 根 据 图 24-15 的 状态 变迁 图 ， 设 定 正确 的 连接 状态 。tcp._output 
发 送 FIN 之 前 ， 如 果 发 送 缓存 中 仍 有 数据 ， 会 首先 发 送 等 待 数据 。 


192 /* 

193 

194 */ 

195 Case PRU, SHUTDOWN: 

196 Socantsendmore (so); 

197 tp = tcp usrclosed(tp); 
198 if (tp) 

199 error - tcp output(tp); 
200 break; 

201 /* 

202 

203 */ 

204 case PRU RCVD: 

205 (void) tcp, output (tp); 
206 break; 

207 /* 

208 

209 * marker if URG set. 
210 */ : 

211 case PRU SEND: 

212 sbappend(&so-»so, snd, m); 
213 error - tcp output (tp); 
214 break; 





图 30-6 tcp_usrred 国 数 : PRU SHUTDOWN, PRU, RCVDÁIPRU SENDjSzK 


13. PRU_RCVD 请 求 


IOF TCP$5 HP RR 


* After a receive, possibly send window update to peer. 


811 


tcp. usrreq.c 


* Mark the connection as being incapable of further output. 


* Do a send by putting data in output queue and updating urgent 
Possibly send more data. 


tcp usrreq.c 


应 用 进程 从 播 口 的 接收 缓存 中 读 取 数据 后 ，soreceive 会 发 送 这 个 请 求 。 此 时 接 


收 缓存 已 扩大 ， 也 许 会 有 足够 的 空间 ， 让 TCP 发 送 更 大 的 窗口 通告 。 上 cp_output 会 决定 是 


图 23-14 中 给 出 的 5 个 写 函数 ， 都 以 这 一 请 求 结 束 。 调 用 sbappend， 向 插口 的 发 


送 缓存 中 添加 数据 ( 它 将 一 直 保 存在 缓存 中 ， 直 到 被 确认 )， 并 调用 tcp_output 发 送 新 报 文 


So-»s$0o snd.sb hiwat; 


201-206 
否 需 要 发 送 窗口 更 新 报 文 段 。 
14. PRU_SEND 请 求 
207-214 
段 (如 果 条 件 允 许 )。 
图 30-7 给 出 了 PRU_ABORT 和 PRU_SENSE 请 求 的 处 理 代码 。 
215 /* 
216 * Abort the TCP. 
217 */ 
218 case PRU,ABORT: 
219 tp = tcp drop(tp, ECONNABORTED); 
220 break; 
221 case PRU, SENSE: 
222 ((struct stat *) m)-»st blksize 
223 (void) splix(s); 
224 return (0); 


图 30-7 ktcp_usrreqg 国 数 : PRU_ABORT 和 PRU_SENSE 请 求 


15. PRU_ABORT 请 求 
215-220 


tcp usrreq.c 


tcp. usrreq.c 


如 果 播 口 是 监 听 播 口 ( 如 服务 器 )， 并 且 存 在 等 待 建立 的 连接 ， 例 如 已 发 送 初始 
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SYN 或 已 完成 三 次 担 手 过程， 但 还 未 被 服务 器 accept 的 连接 ， 调 用 soclose 会 导致 发 送 
PRU_ABORT 请 求 。 如 果 连 接 已 同步 ，tcp_drop 将 发 送 RST。 

16. PRU_SENSE 请 求 
221-224 fstat 系 统 调用 会 生成 PRU_SENSE 请 求 。TCP 返 回 发 送 缓存 的 大 小 ， 保 存在 
stat 结 构 的 成 员 变 量 st_blksize 中 。 

图 30-8 给 出 了 PRU_RCVOOB 的 处 理 代 码 。 当 应 用 进程 置 位 MSG_OOB 标 志 ， 试 图 读 取 带 外 
数据 时 ，soreceive 会 发 送 这 一 请 求 。 


225 case PRU RCVOOB: Icp-usrreq.c 
226 if ((so-»so oobmark -- 0 && 
227 (so-»so state & SS, RCVATMARK) == 0) || 
228 SO-»SO options & SO OOBINLINE |! 
229 tp-»t oobflags & TCPOOB HADDATA) ( 
230 error - EINVAL; 
231 break; 
232 ) 
233 if ((tp-»t,oobflags & TCPOOB HAVEDATA) == 0) ( 
234 error - EWOULDBLOCK; 
235 break; 
236 ) 
237 m-»m len - 1; 
238 *mtod(m, caddr. t) = tp-»t iobc; 
239 if (((int) nam & MSG PEEK) == 0) 
240 tp-»t oobflags “= (TCPOOB HAVEDATA | TCPOOB, HADDATA); 
241 break; 
tcp. usrreq.c 


图 30-8 tcpb_usrred 国 数 : PRU_RCVOOB 请 求 


17. 能 否 读 取 带 外 数据 
225-232 如 果 下 列 3 个 条 件 有 一 个 为 真 ， 应 用 进程 读 取 带 外 数据 的 努力 就 会 失败 。 

1) 如 果 反 口 的 带 外 数据 分 界 点 (so_oobmark) 等 于 0， 并 且 插 口 的 SS_RCVATMARK 标 志 
未 设 定 ; 或 者 

2) 如 果 SO_OOBINLINE 播 口 选项 设 定 ; 或 者 

3) 如 果 连 接 的 TCPOOB_HADDATA 标 志 设 定 ( 例 如 ， 连 接 的 带 外 数据 已 被 读 取 )。 

如 果 上 述 3 个 条 件 中 任何 一 个 为 真 ， 则 返回 差错 代码 EINVAL。 

18. 是 否 有 带 外 数据 到 达 
233-236 如 果 上 述 3 个 条 件 全 假 ， 但 TCPOOB_HAVEDRATRA 标 志 置 位 ， 说 明 尽 管 TCP 已 收 到 了 
对 端 发 送 的 紧急 方式 通告 ， 但 尚未 收 到 序号 等 于 紧急 指针 减 1 的 字 节 ( 图 29-17)， 此 时 返回 差错 
代码 EWOULDBLOCK， 有 可 能 因为 发 送 方 发 送 紧 急 数据 通告 时 ， 紧 急 数 据 偏 移 量 指向 了 尚未 
发 送 的 字 节 。 卷 1 的 图 26-7 举 例 说 明了 这 种 情况 ， 发 送 方 的 数据 传输 被 对 端的 零 窗 口 通告 停止 
时 ， 常 出 现 这 种 现象 。 

19. 返回 带 外 数据 字 节 
237-238 tcp_pulloutofband 向 应 用 进程 返回 存储 在 t_iobc 中 的 一 个 字 节 的 带 外 数据 。 

20. 更 新 标志 
239-241 如果 应 用 进程 已 恋 取 了 带 外 数据 (而 不 是 仅 大 致 了 解 带 外 数据 的 情况 ，MSG_PEEK 标 
志 置 位 )，TCP 清 除 HAVE 标 志 ， 并 置 位 HAD 标 志 。case 语 句 执行 到 此 处 时 ， 通 过 前 面 的 代码 可 
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以 肯定 ，HAVE 标 志 已 置 位 ， 而 AD 标志 被 清除 。 置 位 HBAD 标 志 的 目的 是 防止 应 用 进程 试图 再 次 
读 取 带 外 数据 。 一 旦 HAD 标 志 置 位 ， 在 收 到 新 的 紧急 指针 之 前 ， 它 不 会 被 清除 (图 29-17)。 
代码 使 用 了 让 人 帝 解 的 异 或 运算 ， 而 不 是 简单 的 
tp->t_oobflags = TCPOOB HADDATA; 


是 为 了 能 够 在 t_oobflags 中 定义 更 多 的 比特 。 但 Net/3 中 ， 实 际 只 用 到 了 上 面 


图 30-9 中 的 PRU_SENDOOB 请 求 ， 是 在 应 用 进程 写 和 人 数据 并 置 位 MSG_00B 了 时 ， 由 sosend 
发 送 的 。 


Icp. usrreq.c 
242 case PRU SENDOOB: 
243 if (sbspace(&so-»so snd) « -512) ( 
244 m freem(ím); 
245 error - ENOBUFS; 
246 break; 
247 } 
248 /* 
249 * According to RFC961 (Assigned Protocols), 
250 * the urgent pointer points to the last octet 
251 * of urgent data. We continue, however, 
252 * to consider it to indicate the first octet 
253 * of data past the urgent section. 
254 * Otherwise, snd, up should be one lower. 
255 *f 
256 sbappend(&so-»so,snd, m); 
257 tp-»snd,up = tp-»snd una + sSo-»so snd.sb, cc; 
258 tp-»t, force = 1; 
259 error = tcp.output (tp); 
260 tp-»t force = 0; 
261 break; 
tcp. usrreq.c 


图 30-9 tcp usrreqiü SZ: PRU_SENDOOB 请 求 

21. 确认 发 送 缓存 中 有 足够 空间 并 添加 新 数据 
242-247 发 送 带 外 数据 时 ， 人 允许 应 用 进程 写 人 数据 后 ， 待 发 送 数据 量 超过 发 送 缓存 大 小 ， 
超出 量 最 多 为 512 字 节 。 插 口 层 的 限制 要 宽松 一 些 ， 写 入 带 外 数据 后 ， 最 多 可 超出 发 送 缓存 
1024 字 节 ( 图 16-24)。 调 用 sbappend 向 发 送 缓存 末端 添加 数据 。 

22. 计算 紧急 指针 
248-257 紧急 指针 (snd_up) 指 向 写 人 的 最 后 一 个 字 节 之 后 的 字 节 。 图 26-30 举 例 说 明了 这 
一 点 ， 假 定 发 送 缓存 为 空 ， 应 用 进程 写 入 3 字 节 的 数据 ， 且 置 位 了 MSG_OO0B 标 志 。 这 是 考虑 
到 车 应 用 进程 置 位 MSG_O0OB 标 志 ， 且 写 人 的 数据 量 超过 1 字 节 ， 如 果 接 收 方 为 伯克利 系统 ， 
则 只 有 最 后 一 个 字 节 会 被 认为 是 带 外 数据 。 

23. 强制 TCP 输 出 
258-261 邻 t_force 等 于 1， 并 调用 tcp_output。 即 使 收 到 了 对 端的 零 窗口 通告 ，TCP 
也 会 发 送 报 文 段 ，URG 标 志 置 位 ， 紧 急 指针 偏 移 量 非 零 。 卷 1 的 图 26-7 说 明了 如 何 向 一 个 关闭 
的 接收 窗口 发 送 紧急 报 文 段 。 

图 30-10 给 出 了 最 后 3 个 请 求 的 处 理 。 
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tcp usrreg.c 
262 case PRU | SOCKADDR: 
263 in setsockaddr(inp, nam); 
264 break; 
265 case PRU PEERADDR: 
266 in setpeeraddr(inp, nam); 
267 break; 
268 /* 
269 * TCP slow timer went off; going through this 
270 * routine for tracing's sake. 
271 */ 
272 case PRU, SLOWTIMO: 
273 tp = tcp,timers(tp, (int) nam); 
274 req |= (int) nam «« 8; /* for debug's sake */ 
275 break; 
tcp usrreq.c 


图 30-10 tcp_usrredq 图 数 : PRU SOCKADDR. PRU. PEERADDRÁIPRU, SLOWTIMOIS:K 


262-267 getsockname 和 getpeername 系 统 调 用 分 别 发 送 PRU_SOCKADDR 和 
PRU_PEERADDR 请 求 。 调 用 in_setsockaddr 和 in_setpeeraddr 函 数 ， 从 PCB 中 获取 需 
要 信息 ， 存 储 在 addr 参 数 中 。 

268-275 执行 Lcp_slowtimo 函 数 会 发 送 PRU_SLOWTIMO 函 数 。 如 同 注 释 所 指出 的 ， 
tcp_slowtimo 不 直接 调用 tcp_timers 的 唯一 原因 是 为 了 能 够 在 函数 结尾 处 调用 
tcp_trace， 跟 踪 记 录 定 时 器 超时 事件 (图 30-1)。 为 了 在 记录 中 指明 是 4 个 TCP 定 时 器 中 的 哪 
一 个 超时 ，tcp_slowtimo 通 过 nam 参 数 传递 了 t_timer 数 组 (图 25-1) 的 指针 ， 并 左 移 8 位 后 
与 请 求 值 (req) 逻 辑 或 。trpt 程 序 了 解 这 种 做 法 ， 并 据 此 完成 相应 的 处 理 。 


30.3 tcp attach% 


tcp_attach 函 数 ， 在 处 理 PRU_ATTACH 请 求 (例如 ， 插 口 系统 调用 ， 或 者 监听 插口 上 收 
到 了 新 的 连接 请 求 ) 时 ， 由 tcp_usrreq 调 用 。 图 30-11 给 出 了 它 的 代码 。 

1 .为 发 送 缓存 和 接收 缓存 分 配 资 源 
361-372 如 果 还 未 给 播 口 的 发 送 和 接收 缓存 分 配 空间 ，sbreserve 将 两 者 都 设 为 8192， 即 
全 局 变量 tcp_sendspace 和 tcp_recvspace 的 默认 值 (图 24-3)。 


这 些 默认 值 是 否 够 用 ， 取 决 于 连接 两 个 传输 方向 上 的 MSS， 后 者 又 取决 于 MTU。 
例如 ，[Comer and lin 1994] 论 证 了 ， 如 果 发 送 缓存 小 于 3 倍 的 MSS， 则 会 出 现 异 常 ， 
严重 降低 系统 性 能 。 某 些 实 现 定义 的 默认 值 很 大 ， 如 61 444 字 节 ， 已 考虑 到 这 些 默认 
值 对 性 能 的 影响 ， 尤 其 对 较 大 的 MITU( 如 FDDI 和 ATMD) 更 是 如 此 。 


2. 分 配 Internet PCB 和 TCP 控 制 块 
373-377 in_pcballoc 分 配 Internet PCB， 而 tcp_newtcpcb 分 配 TCP 控 制 块 ， 并 将 其 与 
对 应 的 PCB 相 连 。 
378-384 ”如 果 tcp_newtcpcb 调 用 malloc 时 失败 ， 则 执行 注释 为 “XXX” 的 代码 。 前 面 
已 介绍 过 ，PRU_ATTACH 请 求 是 插口 系统 调用 或 监听 插口 收 到 新 的 连接 请 求 (sonewconn) 的 
结果 。 对 于 后 一 种 情况 ， 插 口 标志 SS_NOFDREF 置 位 。 如 果 此 标志 置 位 ，in_pcballoc 调 
用 sofree 时 会 释放 插口 结构 。 但 我 们 在 tcp_input 中 看 到 ， 除 非 该 函数 已 完成 接收 报 文 段 
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BJ4RER(EQ29-27mügydropsocketknib), dH. PEAREN A. Ri, WH 
in_pcbaetach 时 ， 应 将 SS_NOFDREEF 标 志 的 当前 值 保存 在 变量 nofd 中 ， 并 在 
tcp_attach 返 回 前 重 设 该 标志 。 

385-386 TCP 连 接 状态 初始 化 为 CLOSED 。 





361 int tcp usrreq.c 
362 tcp.attach(so) 
363 struct socket *so; 
364 ( 
365 struct tcpcb *tp; 
366 struct inpcb *inp; 
367 int error; 
368 if (so-»so snd.sb hiwat == 0 |} so-»so rcv.sb hiwat == 0) ( 
369 error = soreserve(so, tcp. sendspace, tcp recvspacel; 
370 if (error) 
371 return (error); 
372 ) 
373 error - in, pcballoc(so, &tcb); 
374 if (error) 
375 return (error); 
376 inp = sotoinpcb(so); 
377 tp = tcp uewtcpcb(inp); 
378 if (tp == 0) ( 
379 int nofd = so-»so state & SS NOFDREF; /* XXX */ 
380 SO-»S0, State &- ^SS, NOFDREF; /* don't free the socket yet */ 
381 in, pcbdetach(inp); 
382 So-»so state |= nofd; 
383 return (ENOBUFS); 
384 ) 
385 tp-»t state = TCPS CLOSED; 
386 return (0); 
387 ) 
tcp usrreq.c 


图 30-11 tcp attachéRZAÁ: 创建 新 的 TCP 插 口 


30.4 tcp disconnect: i 


图 30-12 给 出 的 tcp_disconnect 函 数 ， 准 备 断 开 TCP 连 接 。 

|. 连接 未 同步 
396-402 ”如 果 连 接 还 未 进入 ESTABLISHED 状 态 ( 如 LISTEN、SYN._SENT 或 SYN_RCVD)， 
tcp_.close 只 释放 PCB 和 TCP 控 制 块 。 无 需 向 对 端 发 送 任 何 报 文 段 ， 因 为 连接 尚未 同步 。 

2. 硬性 断 开 
403-404 如果 连接 已 同步 ， 且 So_LINGER 播 口 选项 置 位 ， 拖 延 时 间 (SO_LINGER) 设 为 零 ， 
则 调用 ecpb_aqrop 委 弃 连 接 。 连 接 不 经 过 TIME_WAIT， 直 接 更 新 为 CLOSED， 向 对 端 发 送 
RST， 释 放 PCB 和 TCP 控 制 块 。 调 用 close 会 发 送 PRU_DISCONNECT 请 求 ， 丢 弃 仍 在 发 送 或 
接收 缓存 中 的 任何 数据 。 

如 果 So_LINGER 播 口 选 项 置 位 ， 且 拖延 时 间 非 零 ， 则 调用 soclose 进 行 处 理 。 

3. 平滑 断 开 
405-406 如 果 连 接 已 同步 ， 且 So_LINGER 选 项 未 设 定 ， 或 者 选项 设 定 且 拖延 时 间 不 为 零 ， 


816 TCP/IP 详 解 X2: 实现 





则 执行 TCP 正 常 的 连接 终止 步骤 。soisdisconnecting 设 定 插口 状态 。 


396 struct tcpcb * fcp_usrreq.c 
397 tcp_disconnect (tp) 
398 struct tcpcb *tp; 
399 ( 
400 struct socket *so = tp-»t inpcb--»inp, socket; 
401 if (tp-»t, state « TCPS, ESTABLISHED) 
402 tp - tcp close(tp); 
403 else if ((so-»so options & SO LINGER) && so-»so linger == 0) 
404 tp = tcp dropí(tp, 0); 
405 else ( 
406 Soisdisconnecting(so); 
407 sbflush(&so-»so rcv); 
408 tp = tcp usrclosed(ip); 
409 if (tp) 
410 (void) tcp output (tp); 
411 ) 
412 return (tp); 
413 ) 
tcp usrreg.c 





图 30-12 tcp_disconnect 国 数 : 准备 断 开 TCP 连 接 


4. 丢弃 滞留 的 接收 数据 

407 调用 sbflush， 和 技 弃 所 有 滞留 在 接收 缓存 中 的 数据 ， 因 为 应 用 进程 已 关闭 了 插口 。 发 
送 缓存 中 的 数据 仍 保留 ，tcp_output 将 试图 发 送 剩余 的 数据 。 我 们 阅 “ 试 图 "， 因 为 不 能 保 
证 数据 还 能 成 功 地 被 发 送 。 在 收 到 并 确认 这 些 数据 之 前 ， 对 端 可 能 已 崩溃 ， 即 使 对 端的 TCP 
模块 能 够 接收 并 确认 这 些 数 据 ， 在 应 用 程序 读 取 数 据 之 前 ， 系 统 也 可 能 崩溃 。 因 为 本 地 进程 
已 关闭 了 播 口 ， 即 使 TCP 放 弃 发 送 仍 澡 留 在 发 送 缓存 中 的 数据 (因为 重 传 定时 器 最 终 超 时 )， 也 
无 法 向 应 用 进程 通告 错误 。 

408-410 tcp_usrclosed 基 于 连接 的 当前 状态 ， 促 使 其 进入 下 一 状态 。 通 常情 况 下 ， 连 
接 将 转移 到 FIN_WAIT_1 状 态 ， 因 为 连接 关闭 时 一 般 都 处 于 ESTABLIDHED 状 态 。 后 面 会 看 到 ， 
tcp_usrclosed 通 常 返 回 当前 控制 块 的 指针 (tp)。 因 为 状态 必须 先 同步 才 会 执行 此 处 的 代 
码 ， 所 以 总 需要 调用 tcp_output 发 送 报 文 段 。 如 果 连 接 从 ESTABLISHED 转 移 到 
FIN_WAIT_2， 将 发 送 FIN。 


30.5 tcp_usrclosed 函 数 


图 30-13 给 出 的 这 个 函数 ， 在 PRU_SHUTDOWN 处 理 中 ， 由 tcp_qdisconnect 调 用 。 

1. 未 收 到 SYN 时 的 简单 关闭 
429-434 ”如果 连 接 上 还 未 收 到 SYN， 则 无 需 发 送 FIN。 新 的 状态 等 于 CLOSED， 
tcp_close 将 释放 Internet PCB 和 和 TCP 控制 块 。 

2. 转移 到 FIN_WAIT_1 状 态 
435-438 如果 连 接 当 前 状态 等 于 SYN_RCVD 和 ESTABLISHED， 新 的 状态 将 等 于 


FIN_WAIT_1， 再 次 调用 tcp_output 时 ， 将 发 送 FIN( 图 24-16 中 的 tcp_outf1lags 值 )。 
3. 转移 到 LAST_ACK 状 态 
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439-441 


如 果 连 接 当前 状态 等 于 CLOSE_WAIT， 新 状态 等 于 LAST_ACK， 则 再 次 调用 


tcp_output 时 ， 将 发 送 FIN。 


443-444 ”如果 连 接 当 前 状态 等 于 FIN_WAIT_2 或 TIME_WAIT，soisdisconnected 将 正 
确 地 标注 插口 的 状态 。 

424 struct tcpcb * tcp_usrreq.c 

425 tcp usrclosed(tp) 

426 struct tcpcb *tp; 

427 ( 

428 switch (tp-»t state) { 

429 case TCPS, CLOSED: 

430 case TCPS, LISTEN: 

431 Case TCPS SYN SENT: 

432 tp-»t state = TCPS CLOSED; 

4233 tp - tcp close(tp); 

434 break; 

435 Case TCPS SYN RECEIVED: 

435 case TCPS ESTABLISHED: 

437 tp-»t state = TCPS, FIN WAIT 1; 

438 break; 

439 case TCPS, CLOSE, WAIT: 

440 tp-»t state = TCPS LAST, ACK; 

441 break; 

442 ) 

443 if (tp && tp-»t state >= TCPS FIN WAIT 2) 

444 Ssoisdisconnected(tp-»t inpcb-»inp, socket); 

445 return (tp); 

446 ) 

tcp usrreq.c 


图 30-13 tcp_usrclosed 函 数 : 基于 连接 关闭 的 处 理 进 程 ， 将 连接 转移 到 下 一 状态 


30.6 tcp ctloutputi/E X 


tcp_ctloutput 图 数 被 getsockopt 和 setsockopt 国 数 调用 ， 如 果 它 们 的 描述 符 参 
数 指明 了 一 个 TCP 揪 口 ， 且 level 不 是 SOL_SOCKET。 图 30-14 列 出 了 TCP 支 持 的 两 个 插口 选项 。 





EEC 


TCP NODELAY t flags 
TCP MAXSEG t maxseg 






| Nagel 算 法 (图 268) | 8) 
TCP 将 发 送 的 最 大 报 文 段 长 度 









图 30-14 TCP 支 持 的 插口 选项 


图 30-15 给 出 了 函数 的 第 一 部 分 。 





284 int 


tcp usrreq.c 


285 tcp ctloutput(op, so, level, optname, mp) 


286 int 


op; 


287 struct socket *so; 


288 int 


level, optname; 


图 30-15 tcp_ctloutput 国 数 : 第 一 部 分 
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289 struct mbuf **mp; 


290 ( 

291 int error = 0, s; 

292 struct inpcb *inp:; 

293 struct tcpcb *tp; 

294 struct mbuf *m; 

295 int i; 

296 s = splnet(); 

297 inp = sotoinpcb(so); 

298 if (inp == NULL) { 
299 splxís); 

300 if (op -- PRCO SETOPT && *mp) 
301 (void) m free(*mp); 

302 return (ECONNRESET); 

303 ) 

304 if (level != IPPROTO TCP) ( 

305 error - ip ctloutput(op, so, level, optname, mp); 
306 splxí(s); 

307 return (error); 

308 ) 

309 tp = intotcpcb(inp); 


- tcp. usrreg.c 
8030-15 (585 


296-303 函数 执行 时 ， 处 理 器 优先 级 设 为 spLnet，inp 指 向 插口 的 Internet PCB. 如 果 inp 
为 空 ， 且 操作 类 型 是 设 定 播 口 选项 ， 则 释放 mbuf 并 返回 错误 。 
304-308 如 果 level(getsockopt 和 setsockopt 系 统 调用 的 第 二 个 参数 ) 不 等 于 
IPPROTO_TCP， 说 明 操作 的 是 其 他 协议 (如 IP)。 例 如 ， 可 以 创建 一 个 TCP 插 口 ， 并 设 定 其 IP 
源 选 路 插口 选项 。 此 时 应 由 下 处 理 这 个 插口 选项 ， 而 不 是 TCP。ip_ctloutput 处 理 命令 。 
309 如 果 是 对 TCP 选 项 进行 操作 ，tp 将 指向 TCP 控 制 块 。 

函数 的 剩余 部 分 是 一 个 swi tch 语 名 ， 有 两 个 分 支 : 一 个 处 理 PRCO_SETOPT( 图 30-16 中 
给 出 )， 另 一 个 处 理 PRCO_GETOPT( 图 30-17 中 给 出 )。 


-一 -人 op_U5Srreg.C 
310 switch (op) ( 


311 case PRCO_SETOPT : 

312 m = *mp; 

313 switch (optname) { 

314 case TCP, NODELAY: 

315 if (m == NULL || m-»m len < sizeof(int)) 
316 error - EINVAL; 

317 else if (*mtod(m, int *)) 

318 tp-»t flags |= TF NODELAY; 
319 else 

320 tp-»t, flags &- ^TF NODELAY; 

321 break; 

322 case TCP_ MAXSEG: 

323 if (m && (i = *mtod(m, int *)) > 0 && i <= tp-»t maxseg) 
324 tp-»t ,maxseg = i; 

325 else 

326 error = EINVAL; 

327 break; 


图 30-16 tcp_ctloutput 函 数 : 设 定 插口 选项 
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328 Gefault: 

329 error - ENOPROTOOPT; 
330 break; 

331 } 

332 if (m) 

333 (void) m free(m); 
334 break; 


tcp usrreq.c 
图 30-16 (£x) 
315-316 m 是 一 个 mbuf， 保 存 了 setsockopt 的 第 四 个 参数 。 对 于 两 个 TCP 插 口 选项 ， 
mbuf 中 都 必须 是 整数 。 如 果 任 何 一 个 mbuf 指 针 为 空 ， 或 者 mbuf 中 的 数据 长 度 小 于 整数 大 小 ， 
则 返回 错误 。 
1. TCP, NODELAY i, "R 
317-321 如 果 整 数值 非 零 ， 则 置 位 TF_NODELAY 标 志 ， 从 而 取消 图 26-8 中 的 Negal 算 法 。 如 
果 整 数值 等 于 0， 则 使 用 Negal 算 法 (默认 值 )， 并 清除 TF_NODELAY 标 志 。 
2. TCP_MAXSEG 选 项 
322-327 应 用 进程 只 能 减少 MSS。TCP 插 口 创 建 时 ，tcp_newtcpcb 初 始 化 t_maxseg 为 默 
认 值 512。 当 收 到 对 端 SYN 中 包含 的 MSS 选 项 时 ，tcp_input 调 用 tcp_mss，t_maxseg 最 
高 可 等 于 外 出 接口 的 MTU( 减 去 40 字 节 ，IP 和 TCP 首 部 的 默认 值 )， 以 太 网 等 于 1460。 因 此 ， 
调用 插口 之 后 ， 连 接 建立 之 前 ， 应 用 进程 只 能 以 默认 值 512 为 起 点 ， 减 少 MSS。 连 接 建立 后 ， 
应 用 进程 可 以 从 tcp_mss 选 取 的 任何 值 起 ， 减 少 MSS。 
4.4BSD 是 伯克利 版 本 中 第 一 次 支持 MSS 做 为 插口 选项 ， 以 前 的 版 本 只 允许 利用 
getsockopt 读 取 MSS 值 。 
3. 释放 mbuf 


332-333 释放 mbuf 链 。 
图 30-17 给 出 了 PRCO_GETOPT 命 令 的 处 理 。 


tcp_usrreq.c 
335 case PRCO, GETOPT: 
336 *mp - m - m get (M WAIT, MT SOOPTS); 
337 m-»m len - sizeof(int); 
338 switch (optname) ( 
339 case TCP, NODELAY: 
340 *mtod(m, int *) = tp-»t flags & TF NODELAY; 
341 break; 
342 case TCP. MAXSEG: 
343 *mtod(m, int *) - tp-»t maxseg; 
344 break; 
345 default: 
346 error - ENOPROTOOPT; 
347 break; 
348 ) 
349 break; 
350 ) 
351 splx (s); 
352 return (error); 
353 ) 
tcp usrreq.c 


图 30-17 tcp ctloutputBRZ: 读 取 插口 选项 
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335-337 两 个 TCP 插 口 选 项 都 向 应 用 进程 返回 一 个 整数 值 ， 因 此 ， 调 用 m_get 得 到 一 个 
mbuf， 其 长 度 等 于 整数 长 度 。 

339-341 TCP_NODELRAY 返 回 TE_NODELAY 标 志 的 当前 状态 : 如 果 标 志 未 置 位 (使 用 Nagel 
算法 )， 则 等 于 0; 如 果 标 志 置 位 ， 则 等 于 TF_NODELRAY。 

342-344 ”TCP_MAXSEG 选 项 返回 t_maxseg 的 当前 值 。 前 面 讨 论 PRCO_SETOPT 命 令 时 曾 
提 到 ， 返 回 值 取决 于 插口 是 否 已 进入 连接 状态 。 


30.7 小 结 


tcp_usrreq 函 数 处 理 逻 辑 很 简单 ， 因 为 绝 大 多 数 处 理 都 由 其 他 函数 完成 。PRU_xxx 请 
求 是 独立 于 协议 的 系统 调用 与 TCP 协 议 处 理 间 的 桥梁 。 
tcp_ctlsockopt 函 数 也 很 简单 ， 因 为 TCP 只 支持 两 个 插口 选项 : 使 用 或 取消 Nagel 算 
法 ， 设 置 或 读 取 最 大 报 文 段 长 度 。 
习题 
30.1 现在 ， 我 们 已 经 结束 了 对 FCP 的 讨论 ， 如 果 某 个 客户 执行 了 正常 的 socket、 
connect, write (向 服务 器 请 求 ) 和 read( 读 取 服 务 器 响应 )， 分 别 列 出 客户 端 和 
最 务 器 端的 处 理 步 骤 及 TCP 状 态 变 迁 。 
30.2 如 果 应 用 进程 设 定 SO_LINGER 揪 口 选项 ， 且 拖延 时 间 等 于 0， 之 后 调用 close， 我 
们 给 出 了 如 何 调 用 tcp_disconnect， 从 而 发 送 RST。 如 果 应 用 进程 设 定 了 这 个 
插口 选项 ， 且 拖延 时 间 等 于 0， 之 后 进程 被 某 个 信号 杀 死 (kill)， 而 非 调用 close， 
会 发 生 什么 ?还 会 发 送 RST 报 文 段 吗 ? 
30.3 图 25-4 中 描述 TCP_LINGERTIME 了 时 ， 称 之 为 “SO_LINGER 插 口 选 项 的 最 大 秒 数 ”。 
根据 图 30-2 中 的 代码 ， 这 个 说 法 正确 吗 ? 
304 某 个 Net/3 客 户 调用 socket 和 connect， 主 动 与 服务 器 建立 连接 ， 使 用 了 客户 的 
默认 路 由 。 客 户主 机 向 服务 器 发 送 了 1 129 个 报 文 段 。 假 定 到 达 目 的 地 的 路 由 未 变 ， 
为 了 这 条 连接 ， 客 户主 机 需要 搜索 多 少 次 路 由 表 ? 解释 你 的 结论 。 
30.5 找到 卷 1 的 附录 C 中 提 到 的 sock 程 序 。 把 该 程序 做 为 服务 器 运行 ， 读 取 数 据 前 有 停 
顿 (-p)， 且 有 较 大 的 接收 缓存 。 之 后 在 另 一 个 系统 中 运行 同一 个 程序 ， 但 做 为 客户 。 
通过 cpdump 查 看 数据 。 确 认 TCP“ 确 认 所 有 其 他 报 文 段 ”的 属性 未 出 现 ， 服 务 器 
送出 的 ACK 全 部 是 延迟 ACK。 
30.6 修改 SO0_KEEPRALIVE 播 口 选项 ， 从 而 能 够 配置 每 个 连接 的 参数 。 
30.7 阅读 RFC 1122， 了 解 为 什么 它 建议 TCP 应 该 允许 RST 报 文 段 携 带 数据 。 修 改 NeV3 代 
码 以 实现 此 功能 。 i 
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BSD 分 组 过 滤 程 序 (BPF) 是 一 种 软件 设备 ， 用 于 过 滤 网 络 接口 的 数据 流 ， 即 给 网 络 接口 加 
上 “开关 ”。 应 用 进程 打开 /dev/bpf0、/dev/bpf1 等 等 后 ， 可 以 读 取 BPF 设 备 。 每 个 应 用 
进程 一 次 只 能 打开 一 个 BPF 设 备 。 
因为 每 个 BPF 设 备 需要 8192 字 节 的 缓存 ， 系 统管 理 员 一 般 限制 BPF 设 备 的 数目 。 

如 果 Open 返 回 EBUSY， 说 明 该 设备 已 被 使 用 ， 应 用 进程 应 该 试 着 打开 下 一 BPF 设 备 ， 

直到 open 成 功 为 止 。 

通过 若干 ioct1i 命 令 ， 可 以 配置 BPF 设 备 ， 把 它 与 某 个 网 络 接 口 相关 连 ， 并 安装 过 滤 程 
， 从 而 能 够 选择 性 地 接收 输入 的 分 组 。BPF 设 备 打 开 后 ， 应 用 进程 通过 读 写 设备 来 接收 分 
， 或 将 分 组 放 人 网 络 接口 队列 中 。 

我 们 将 一 直 使 用 “分 组 ”， 尽 管 “ 帧 ”可 能 更 准确 一 些 ， 因 为 BPF 工 作 在 数据 链 

路 层 ， 在 发 送 和 接收 的 数据 帧 中 包含 了 链 路 层 的 首部 。 

BPF 设 备 工作 的 前 提 是 网 络 接 口 必须 能 够 支持 BPF。 第 3 章 中 提 到 以 太 网 、SLIP 和 环 回 接 
口 的 驱动 程序 都 调用 了 bpfattach， 用 于 配置 读 取 BPF 设 备 的 接口 。 本 节 中 ， 我 们 将 介绍 
BPF 设 备 驱 动 程序 是 如 何 组 织 的 ， 以 及 数据 分 组 在 驱动 程序 和 网 络 接 口 之 间 是 如 何 传 递 的 。 

BPF 一 般 情 况 下 用 作 诊 断 工具 ， 查 看 某 个 本 地 网 络 上 的 流量 ， 卷 1 附录 A 介绍 的 tcpdump 
程序 是 此 类 工具 中 最 好 的 一 个 。 通 常情 况 下 ， 用 户 感 兴趣 的 是 一 组 指定 主机 间 交 互 的 分 组 ， 
或 者 某 个 特定 协议 ， 其 至 某 个 特定 了 TCP 连接 上 的 数据 流 。BPF 设 备 经 过 适当 配置 ， 能 够 根据 过 
滤 程 序 的 定义 丢弃 或 接受 输入 的 分 组 。 过 滤 程 序 的 定义 类 似 于 伪 机 器 指令 ，BPF 的 细节 超出 
了 本 书 的 讨论 范围 ， 感 兴趣 的 读者 请 参阅 bpf(4) 和 [McCanne and Jacobson 1993]. 


31.2 代码 介绍 
下 面 将 要 介绍 的 有 关 BPF 设 备 驱动 程序 的 代码 ， 包 括 两 个 头 文件 和 一 个 C 文 件 ， 在 图 31-1 


EB R 












中 给 出 。 
net/bpf.h BPF Œ 
net/bpfdesc.h BPF 结 构 
BP 人 
图 31-1 本 章 讨论 的 文件 
31.2.1 全 局 变量 


本 章 用 到 的 全 局 变量 在 图 31-2 中 给 出 。 
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bpf iflist struct bpf if * 支持 BPF 的 接 日 组 成 的 链表 


bpf_dtab struct bpf d [] BPF 描 述 符 数组 
bpf bufsize int BPF 缓 存 大 小 默认 值 





图 31-2 本 章 用 到 的 全 局 变量 


31.2.2 统计 量 
图 31-3 列 出 了 bpf_a 结 构 中 为 每 个 活动 的 BPF 设 备 维护 的 两 个 统计 量 。 


bd_rcount 从 网 络 接口 接收 的 分 组 的 数目 
bd, dcount 


由 于 缓存 空间 不 足 而 丢弃 的 分 组 的 数目 
图 31-3 本 章 讨论 的 统计 值 


本 章 的 其 余 内 容 分 为 4 个 部 分 : 
*，BPF 接 口 结 构 ; 
。BPF 设 备 描 述 符 ; 
。BPF 输 入 处 理 ; 和 
。BPF 输 出 处 理 。 


31.3 bpf_if 结 构 


BPF 维 护 一 个 链表 ， 包 括 所 有 支持 BPF 的 网 络 接口 。 每 个 接口 都 由 一 个 bpf_if 结 构 描 述 ， 
全 局 指针 bpf_if1ist 指 向 表 中 的 第 一 个 结构 。 图 31-4 给 出 了 BPF 接 口 结构 。 









- bpfdesc.h 
67 struct bpf if ( 
68 struct bpf if *bif next; /* list of all interfaces */ 
69 struct bpf d *bif dlist; /* descriptor list */ 
70 struct bpf if **bif driverp; /* pointer into softc */ 
71 u int bif dlt; /* link layer type */ 
72 u int bif hdrlen; /* length of header (with padding) */ 
73 struct ifnet *bif ifp; /* correspoding interface */ 
74 ): 

bpfdesc.h 





图 31-4 bpf_if 结 构 


67-79 bif_next 指 向 链表 中 的 下 一 个 BPF 接 口 结 构 。bif_dlist 指 向 另 一 个 链表 ， 包 括 
所 有 已 打开 并 配置 过 的 BPF 设 备 。 

70 ”如 果菜 个 网 络 接口 已 配置 了 BPF 设 备 ， 即 被 加 上 了 开关 ， 则 bif_ariverp 将 指向 ifnet 
结构 中 的 ppf_if 指 针 。 如 果 网 络 接口 还 未 加 上 开关 ，*bif_driverp 为 空 。 为 某 个 网 络 接 
口 配置 BPF 设 备 时 ，*bift_dqriverp 将 指向 bif_if 结 构 ， 从 而 告诉 接口 可 以 开始 向 BPE 传 递 


分 组 。 
71 接口 类 型 保存 在 bif_dlt 中 。 图 31-5 中 列 出 了 前 面 提 到 的 几 个 接口 所 分 别 对 应 的 常量 值 。 
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bif dlt 


DLT EN10MB 10 Mb 以 太 网 接口 


DLT SLIP SLIP 接 口 
DLT NULL 环 回 接口 





图 31-5 bif_qdit 值 


72-74 BPF 接 受 的 所 有 分 组 都 有 一 个 附加 的 BPF 首 部 。bif_hdrlen 等 于 首部 大 小 。 最 后 ， 
bif_ifp 指 向 对 应 接口 的 ifnet 结 构 。 
图 31-6 给 出 了 每 个 输入 分 组 中 附加 的 bpf_har 结 构 。 


122 struct bpf hdr { bpfh 
123 struct timeval bh, tstamp; /* time stamp */ 

124 u long bh caplen; /* length of captured portion */ 

125 u long bh datalen; /* original length of packet */ 

126 u.short bh hdrlen; /* length of bpf header (this struct plus 
127 alignment padding) */ 

128 ); — fh 


图 31-6 bpf hàr£ifj 


122-128 bph_tstamp 记 录 了 分 组 被 捕捉 的 时 间 。bh_caplen 等 于 BPF 保 存 的 字 节 数 ， 
bh_dqatalen 等 于 原始 分 组 中 的 字 节 数 。bh_headlen 等 于 bpf_hdr 的 大 小 加 上 所 需 填充 字 
节 的 长 度 。 它 用 于 解释 从 BPF 设 备 中 读 取 的 分 组 ， 应 该 等 同 于 接收 接口 的 bif_hdarlen.。 

图 31-7 给 出 了 bpf_if 结 构 是 如 何 与 前 述 3 个 接 H(le_softc [0]、sl_softc[0] 和 
loif) 的 ifnet 结 构建 立 连 接 的 。 























































bpf iflist: 
bpf if() bpf if() bpf if() 

bif next 
bit dlist i 
bif dlt DLT EN10MB bif dlt  |DLT.SLIP DLT NULL 
bif hdrlen [bif hdrlen 20 








loif: 


bif ifp 


Sl, softc (0]: 





le softc[0]: 


- if bpf ~ 






图 31-7 ppf_if 和 ifnet 结 构 


注意 ，bif_driverp 指 向 网 络 接 口 的 i1f_bpf 和 sc_bpf 指 针 ， 而 不 是 接口 结构 。 
SLIP 设 备 使 用 sc_bpf， 而 不 是 if_bpf。 这 可 能 是 因为 SLIP BPF 代 码 完 成 时 ， 


824 TCP/IP3Y&R 42: 实现 


if_bpf 成 员 变 量 还 未 加 入 到 ifnet 结 构 中 。Net2 中 的 ifnet 结 构 不 包 揪 if_bpf 成 
员 。 
按照 各 接口 驱动 程序 调用 bpfattach 时 给 出 的 信息 ， 对 3 个 接口 初始 化 链 路 类 型 和 首部 


长 度 成 员 变量 。 
第 3 章 介 绍 了 bpfattach 被 以 太 网 、SLIP 和 环 回 接口 的 驱动 程序 调用 。 每 个 设备 驱动 程 
序 初始 化 调用 bpfattach 时 ， 将 构建 BPF 接 口 结构 链表 。 图 31-8 给 出 了 该 函数 。 


1053 void bpfc 
1054 bpfattach(driverp, ifp, dlt, hdrlen) 

1055 caddr.t *driverp; 

1056 struct ifnet *ifp; 

1057 u int dlt, hdrlen; 

1058 ( 

1059 struct bpf if *bp; 

1060 int i; 

1061 bp = (struct bpf if *) malloc(sizeof(*bp), M. DEVBUF, M.DONTWAIT); 
1062 if (bp == 0) 

1063 panic("bpfattach"); 

1064 bp-»bif dlist = 0; 

1065 bp-»bif driverp = (struct bpf if **) driverp; 

1066 bp-»bif ifp = ifp; 

1067 bp-»bif, dlt = dlt; 

1068 bp-»bif next = bpf iflist; 

1069 bpf iflist - bp; 

1070 *bp-»bif driverp - 0; 

1071 /* 

1072 * Compute the length of the bpf header. This is not necessarily 
1073 * equal to SIZEOF BPF HDR because we want to insert spacing such 
1074 * that the network layer header begins on a longword boundary (for 
1075 * performance reasons and to alleviate alignment restrictions). 
1076 */ 

1077 bp-»bif hdrlen = BPF WORDALIGN(hdrlen + SIZEOF BPF, HDR) - hdrlen; 
1078 /* 

1079 * Mark all the descriptors free if this hasn't been done. 

1080 */ 

1081 if (!D ISFREE(&bpf dtab[0])) 

1082 for (i = 0; i < NBPFILTER; ++i) 

1083 D MARKFREE(&bpf dtab[i]); 

1084 printf("bpf: $s$d attached\n", ifp-»if name, ifp-»if unit); 

1085 ) bpf.c 





图 31-8 bpfattachiK Jk 


1053-1063 每 个 支持 BPF 的 设备 驱动 程序 都 将 调用 ppfattach。 第 一 个 参数 是 保存 在 
pbif_driverp 的 指针 (图 31-4 给 出 )， 第 二 个 参数 指向 接口 的 i fnet 结 构 ， 第 三 个 参数 确认 数 
据 链 路 层 类 型 ， 第 四 个 参数 传递 分 组 中 的 数据 链 路 首部 大 小 ， 为 接口 分 配 一 个 新 的 ppf_if 结 


构 。 
1. 初始 化 bpf_if 结 构 
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1064-1070 bpft_if 结 构 根 据 函 数 的 参数 进行 初始 化 ， 并 插入 到 BPF 接 口 链表 ， 
bpf_iflist， 的 表 头 。 

2. 计算 BPF 首 部 大 小 
1071-1077 设 定 bif_hdrlen 大 小 ， 强 迫 网 络 层 首部 (如 IP 首 部 ) 从 一 个 长 字 的 边界 开始 
这 样 可 以 提高 性 能 ， 避 免 为 BPF 加 入 不 必要 的 对 齐 限 制 。 图 31-9 列 出 了 在 前 述 3 个 接口 上 ， 各 
自 捕捉 到 的 BPF 分 组 的 总 体 结 构 。 


1877-45 14 字 节 














填充 
| bpf hádr() || SLIP pseudo-link header S] 
185: fi 2 lez t5 
环 回 伪 链 路 首部 
TT | 34] 
183:35 2 字 节 4 字 节 


图 31-9 BPF 分 组 结构 


ether_header 结 构 在 图 4-10 中 给 出 ，SLIP 伪 链 路 首部 在 图 5-14 中 给 出 ， 而 环 回 接口 伪 
链 路 首部 在 图 5-28 中 给 出 。 

请 注意 ，SLIP 和 环 回 接口 分 组 需要 填充 2 字 节 ， 以 强迫 IP 首 部 按 4 字 节 对 齐 。 

3. 初始 化 bpf_dtab 表 
1078-1083 代码 初始 化 图 31-10 中 给 出 的 BPF 描 述 符 表 。 注 意 ， 仅 在 第 一 次 调用 
bpfattach 了 时 进行 初始 化 ， 后 续 调 用 将 跳 过 初始 化 过 程 。 

4. 打印 控制 台 信 息 
1084-1085 系统 向 控制 台 输 出 一 条 短信 息 ， 宣 告 接口 已 配置 完毕 ， 可 以 支持 BPF。 


31.4 bpf_d 结 构 


为 了 能 够 选择 性 地 接收 输入 报 文 ， 应 用 进程 首先 打开 一 个 BPF 设 备 ， 调 用 若干 ict1 命 令 
规定 BPF 过 滤 程 序 的 条 件 ， 指 明 接口 、 读 缓存 大 小 和 超时 时 限 。 每 个 BPF 设 备 都 有 一 个 相关 的 
bpf_d 结 构 ， 如 图 31-10 所 示 。 

45-46 ”如 果 同 一 网 络 接口 上 配置 了 多 个 BPF 设 备 ， 与 之 相应 的 bpf._d 结 构 将 组 成 一 个 链表 。 
bd_next 指 向 链表 中 的 下 一 个 结构 。 

421 g 
47-52 每 个 bpf_d 结 构 都 有 两 个 分 组 缓存 。 输 入 分 组 通常 保存 在 pd_sbuf 所 对 应 的 缓存 ( 存 
储 缓存 ) 中 。 另 一 个 缓存 要 么 对 应 于 bda_fbuf( 空 闲 缓存 )， 意 味 着 缓存 为 空 ; 或 者 对 应 于 
bd_hbuf( 暂 留 缓 存 )， 意 味 着 缓存 中 有 分 组 等 待 应 用 进程 读 取 。bd_slen 和 bqd_hlen 分 别 记 
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录 了 保存 在 存储 缓存 和 暂 留 缓 存 中 的 宇 节 数 。 








45 struct bpf d ( 


bpfdesc.h 


46 Struct bpf d *bd next; /* Linked list of descriptors */ 

47 caddr t bd,sbuf; /* store slot */ 

48 caddr,t bd hbuf; /* hold slot */ 

49 caddr t bd fbuf; /* free slot */ 

50 int bd slen; /* current length of store buffer */ 
51 int bd hlen; /* current length of hold buffer */ 
52 int bd bufsize; /* absolute length of buffers */ 

53 struct bpf if *bd bif; /* interface descriptor */ 

54 u long bd rtout; /* Read timeout in 'ticks' */ 

55 struct bpf insn *bd filter; /* filter code */ 

56 u long bd rcount; /* number of packets received */ 

57 u long bd,dcount; /* number of packets dropped */ 

58 u_char bd promisc; /* true if listening promiscuously */ 
59 u_char bd state; /* idle, waiting, or timed out */ 

60 u_char bd immediate; /* true to return on packet arrival */ 
61 u_char bd pad; /* explicit alignment */ 

62 struct selinfo bd sel; /* bsd select info */ 

63 ) 


bpfdesc.h 


图 31-10 bpf_d 结 构 


如 果 存 储 缓存 已 满 ， 它 将 被 连接 到 bdq_hbuf， 而 空闲 缓存 将 被 连接 到 bq_sbuf 。 当 暂 留 
缓存 清空 时 ， 它 会 被 连接 到 bd_fbuf。 宏 ROTATE_BUFFERS 人 负责 把 存储 缓存 连接 到 
bdq_hbuf， 空 闲 缓存 连接 到 bd_sbuf， 并 清空 ba_fbuf 。 存 储 缓存 满 或 者 应 用 进程 不 想 再 
等 待 更 多 的 分 组 时 调用 该 宏 。 

bdq_bufsize 记 录 与 设备 相连 的 两 个 缓存 的 大 小 ， 其 默认 值 等 于 4096(BPF_BUFSIZBE) 字 
节 。 修 改 内 核 代码 可 以 改变 默认 值 大 小 ， 或 者 通过 BIOCSBLEN ioct1 命 令 改变 某 个 特定 
BPF 设 备 的 bd_buf size。BIOCGBLEN 命 令 返 回 bd_pufsize 的 当前 值 ， 其 最 大 值 不 超过 
32768 (BPF_MAXBUFSIZE) 字 节 ， 最 小 值 为 32 (BPF_MINBUFSIZE) 字 节 。 

53-57 bqd_bif 指 向 BPF 设 备 所 对 应 的 bpf_if 结 构 。BIOCSETIF 命 令 可 指明 设备 。 
bdq_rtout 是 等 待 分 组 时 ， 延 迟 的 滴答 数 。ba_filter 指 向 BPF 设 备 的 过 滤 程 序 代码 。 两 个 
统计 值 ， 应 用 进程 可 通过 BIOCGSTATS 命 令 读 取 ， 分 别 保 存在 bd_rcount 和 bd_dcount 
中 。 

58-63 bd_promisc 通 过 BIOCPROMISC 命 令 置 位 ， 从 而 使 接口 工作 在 混杂 
(promiscuous) 状 态 。 bd_state 未 使 用 . bd_immediate 通 过 BIOCIMMEDIATE 命 令 置 位 ， 
促使 驱动 程序 收 到 分 组 后 即 返 回 ， 不 再 等 待 暂 留 缓存 填 满 。bd_pad 填 弃 bpf_d 结 构 ， 从 而 
与 长 字 边 界 对 齐 。ba_sel1 保 存 的 selinfo 结 构 ， 可 用 于 select 系 统 调 用 。 我 们 不 准备 介绍 
如 何 对 BPF 设 备 使 用 select 系统 调用 ，16.13 节 已 介绍 了 select 的 一 般 用 法 。 


31.4.1 bpfopen 函 数 


应 用 进程 调用 cpen， 试 图 打开 一 个 BPF 设 备 时 ， 该 调用 将 被 转 到 bpfopen( 图 31-11)。 
256-263 系统 编译 时 ，BPF 设 备 的 数目 受到 NBPFILTER 的 限制 。 如 果 设 备 的 最 小 设备 号 大 
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于 NBPFILTER， 则 返回 ENXIO， 这 是 因为 系统 管理 员 创 建 的 /dev /bpfx 项 数 大 于 
NBPFILTER 的 值 。 





256 int bpfe 
257 bpfopen(dev, flag) 
258 dev t dev; 
259 int flag; 
260 ( 
261 struct bpf d *d; 
262 if (minor(dev) »- NBPFILTER) 
263 return (ENXIO): 
264 /* 
265 * Each minor can be opened by only one process. If the requested 
266 * minor is in use, return EBUSY. 
267 */ 
268 d = &bpf  dtab[minor(dev)]:; 
269 if (1!D ISFREE(d)) 
270 return (EBUSY); 
271 /* Mark "free" and do most initialization. */ 
272 bzero((char *) d, sizeof(*d)); 
273 d-»bd bufsize - bpf bufsize; 
274 return (0); 
275 ) 
bpf.c 





图 31-11 bpfopentRt 


42 &bptf d£kH 
264-275 同一 时 间 内 ， 一 个 应 用 进程 只 能 访问 一 个 BPF 设 备 。 如 果 bpf_qa 结 构 已 被 激活 ， 
则 返回 BPBUSY。 应 用 程序 ， 如 tcpaump， 收 到 此 返回 值 时 ， 会 自动 寻找 下 一 个 设备 。 如 果 该 
设备 已 存在 ， 最 小 设备 号 所 指定 的 bpf_dtab 表 中 的 项 被 清除 ， 分 组 缓存 大 小 复位 为 默认 值 。 


31.4.2 bpfioct1 函 数 


设备 打开 后 ， 可 通过 ioct1 命 令 进行 配置 。 图 31-12 总 结 了 与 BPF 设 备 有 关 的 ioct1 命 令 。 
图 31-13 给 出 了 bpfioct1 国 数 ， 只 列 出 BIOCSETE 和 BIOCSETIE 的 处 理 代 码 ， 其 他 未 涉及 
到 的 ioct1 命 令 则 被 忽略 。 


bpfioctl 返回 暂 留 缓存 和 存储 绥 存 中 的 字 节 数 | 
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BIOCGBLEN bpfioctl 返回 分 组 缓存 大 小 
BIOCSBLEN bpfioctl 设 定 分 组 缓存 大 小 
BIOCSETF struct bpf program bpf setf 安装 BPF 程 序 
BIOCFLUSH reset d 丢弃 挂 起 分 组 
BIOCPROMISC ifpromisc 设 定 混杂 方式 

BIOCGDLT u int bpfioctl jRBIbif dlt 
BIOCGETIF struct ifreq bpf ifname 返回 所 属 接口 的 名 称 
BIOCSETIF struct ifreq bpf setif 为 网 络 接口 添加 设备 
BIOCSRTIMEOUT | struct timeval bpfioctl 设 定 “ 读 ”操作 的 超时 时 限 
BIOCGRTIMEOUT struct timeval bpfioctl 返回 “ 读 ”操作 的 超时 时 限 
BIOCGSTATS struct bpf. stat bpfioctl 返回 BPF 统 计 值 
BIOCIMMEDIATE u int bpfioctl 设 定 立 即 方式 





BIOCVERSION struct bpf, version bpfioctl 返回 BPF 版 本 信息 





图 31-12 BPF ioctlápA 
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501 int bpfe 
502 bpfioctl(dev, cmd, addr, flag) 
503 dev t dev; 
504 int cmd; 
505 caddr,t addr; 
506 int flag: 
507 ( 
508 struct bpf d *d = &bpf dtab[minor(dev)]; 
509 int s, error - 0; 
510 switch (cmd) ( 
511 /* 
512 * Set link layer read filter. 
513 */ 
514 Case BIOCSETFE: 
515 error = bpf setf(d, (struct bpf program *) addr); 
516 break; 
517 /* 
518 * Set interface. 
519 */ 
520 case BIOCSETIF: 
521 error - bpf setif(d, (struct ifreq *) addr); 
522 break; 
/* other ioctl commands from Figure 31.12 */ 
668 default: 
669 error - EINVAL; 
670 break; 
671 } 
672 return (error); 
673 ) bpfe 





图 31-13 bpfioctl Á% 


501-509 ”与 bpfopen 类 似 ， 通 过 最 小 设备 号 从 bpf_dtab 表 中 选取 相应 的 ppf_q 结 构 。 整 个 
命令 处 理 是 一 个 大 的 switchycase 语 句 。 我 们 给 出 了 两 个 命令 ，BIOCSETF 和 BIOCSETIF， 以 
及 default 子 句 。 
510-522 bpf_setf 国 数 安装 由 addr 指 向 的 过 滤 程 序 ，bpf_setif 建 立 起 指定 名 称 接口 
与 ppf_d 结 构 间 的 对 应 关系 。 本 书 中 没有 给 出 bpf_setf 的 实现 代码 。 
668-673 如 果 命 令 未 知 ， 则 返回 EINVAL。 

图 31-14 的 例子 中 ，bpf_setif 已 把 bpf_q 结 构 连 接 到 LANCE 接 口上 。 

图 中 ，bif_dlist 指 向 ppf_dtab[0]， 以 太 网 接口 描述 符 链表 中 的 第 一 个 也 是 仅 有 的 一 
个 描述 符 。 在 bpf_atab[0] 中 ，bd_sbuf 和 bd_hpbuf 成 员 分 别 指向 存储 缓存 和 和 暂 留 缓 存 。 两 
个 缓存 大 小 都 等 于 4096(bd_bufsize) 字 节 。 bd_bif 回 指 接口 的 bpf_if 结 构 。 

ifnet 结 构 (le_softc[0D) 中 的 if_bpf 也 指 回 bpf_if 结 构 。 如 图 4-19 和 图 4-11 所 示 ， 
如 果 if_bpf 非 空 ， 则 驱动 程序 开始 调用 bpf_tap， 向 BPF 设 备 传递 分 组 。 

图 31-15 接 着 图 31-10， 给 出 了 打开 第 二 个 BPF 设 备 ， 并 连接 到 同一 个 以 太 网 网 络 接口 后 的 
各 结构 变量 的 状态 。 
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bpf iflist 

bpf if() 
bif next -|--- -~-- » ji fübbopt it£h Hj 
bif dlist 
bif driverp bpf dtab 
bif, dlt bd, next 
bif hdrlen bd sbuf 


bif ifp bd, hbuf 
bd fbuf 


bd, hlen 


Irt 


一 一 一 bd bif 


bd next 
bd hbuf 
bd fbuf 
bd slen 
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存储 组 个 


0 ^o WR 
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0 个 困 组 在 
0 
4096 


图 31-15 Ye e SILLA Wik LA) BPFIR A 
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第 二 个 BPF 设 备 打 开 时 ， 在 bpf_dtab 表 中 分 配 一 个 新 的 bppf_d 结 构 ， 本 例 中 为 
bpf_dtab[1]。 因 为 第 二 个 BPF 设 备 也 连接 到 同一 个 以 太 网 接口 ，bif_dlist 指 向 
bpf_dtab[1]， 并 且 bpf_dtab[1].bd_next 指 向 bppf_dtab[0]， 即 以 太 网 上 对 应 的 第 一 个 
BPF 描 述 符 。 系 统 为 新 的 描述 符 结构 分 别 分 配 存储 缓存 和 暂 留 缓存 。 


31.4.3 bpf_setif 函 数 


bpf_setif 函 数 ， 负 责 建立 BPF 描 述 符 与 网 络 接 口 闻 的 连接 ， 如 图 31-16 所 示 。 


-一 一 

721 static int bpfc 
722 bpf setif(d, ifr) 

723 struct bpf d *d; 

724 struct ifreq *ifr; 


725 ( 

726 struct bpf if *bp; 

727 char *cp; 

728 int unit, s, error; 

729 /* 

730 * Separate string into name part and unit number. Put a null 
731 * pyte at the end of the name part, and compute the number. 
732 * If the a unit number is unspecified, the default is 0, 
733 * as initialized above. XXX This should be common code. 
734 */ 

735 unit - 0; 

736 Cp = ifr-»ifr name; 

737 cp[sizeof(ifr-»ifr name) - 1] = 'NO'; 

738 while (*CP++) ( 

739 if (*cp >= '0' && *cp <= '9') ( 

740 unit = *cp - '0'; 

741 *cpee = 'NO0'; 

742 while (*cp) 

743 unit = 10 * unit + *cp++ - 'O'; 

744 break; 

745 ) 

746 ) 

747 /* 

748 * Look through attached interfaces for the named one. 
749 */ 

750 for (bp = bpf iflist; bp != 0; bp = bp-»bif next) ( 

751 struct ifnet *ifp = bp-»bif.ifp; 

752 if (ifp -- |] unit != ifp-»if unit 

753 1! stromp(ifp--if, name, ifr-»ifr name) !- 0) 

754 continue; 

755 /* 

756 * we found the requested interface. 

757 * If it's not up, return an error. 

758 * Allocate the packet buffers if we need to. 

759 * If we're already attached to requested interface, 
760 * just flush the buffer. 

761 */ 

762 if ((ifp-»if flags & IFF UP) == 0) 

763 return (ENETDOWN); 


图 31-16 bpf_setif M% 
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764 if (d-»bd sbuf == 0) ( 
765 error - bpf allocbufs (d); 
766 if (error !- 0) 
767 return (error); 
768 } 
769 S = splimp(); 
770 if (bp != d-»bd bif) ( 
771 if (d-»bd bif) 
712 /* 
773 * Detach if attached to something else. 
774 */ 
775 bpf detachd(d); 
176 bpf attachd(d, bp); 
711 ) 
778 reset d(d); 
779 splx (s); 
780 return (0); 
781 } 
782 /* Not found. */ 
783 return (ENXIO); 
784 } 
bpf.c 
图 31-16 (4#) 


721-746 ”bpf_setif 的 第 一 部 分 完成 ifreq 结 构 ( 图 4-23) 中 接口 名 的 正文 与 数字 部 分 的 分 
离 ， 数 字 部 分 保存 在 unit 中 。 例 如 ， 如 果 ifr_name 的 头 4 字 节 为 “sl11\0”， 代 码 执行 完毕 
后 ， 将 等 于 “sl\0\0”， 且 unit 等 于 1。 

1. 寻找 匹配 的 Tifnet 结 构 
747-754 for 循环 用 于 在 支持 BPEF 的 接口 (bpf_iflist 中 ) 中 查找 符合 frea 定 义 的 接口 。 
755-768 ”如 果 未 找到 匹配 的 接口 ， 则 返回 ENETDOWN。 如 果 接 口 存 在 ，bpf_allocate 为 
bpf_dq 分 配 空闲 缓存 和 存储 缓存 ， 如 果 它 们 还 未 被 分 配 的 话 。 

2. 连接 bpf_d 结 构 
769-777 ”如果 BPF 设 备 还 未 与 网 络 接口 建立 连接 关系 ， 或 者 连接 的 网 络 接 口 不 是 ifreqa 中 
指定 的 接口 ， 则 调用 bpf_adetacha 丢 弃 原 先 的 接口 (如 果 存 在 )， 并 调用 bpf_attachd 将 其 
连接 到 新 的 接口 上 。 
778-784 reset_d 复 位 分 组 缓存 ， 丢 弃 所 有 在 应 用 进程 中 等 待 的 分 组 。 函 数 返 回 ?， 说 明 
处 理 成 功 ; 或 者 ENXIO， 说 明 未 找到 指定 接口 。 


31.4.4 bpf_attachd 函 数 


图 31-17 给 出 的 bpf_attachd 函 数 ， 建 立 起 BPF 描 述 符 与 BPF 设 备 和 网 络 接 口 间 的 对 应 关系 。 
bpf.c 





189 static void 

190 bpf attachd(d, bp) 
191 struct bpf d *d; 
192 struct bpf if *bp; 


193 ( 
194 /* 
195 * Point d at bp, and add d to the interface's list of listeners. 


图 31-17 bpf_attachd 国 数 
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196 * Finally, point the driver's bpf cookie at the interface so 
197 * jt will divert packets to bpf. 
198 */ 
199 d-»bd bif - bp: 
200 d-»bd next = bp-»bif dlist; 
201 bp-»bif dlist = d; 
202 *bp-»bif driverp - bp; 
203 ) 
bpfe 
图 31-17 ( 续 ) 


189-203 首先 ， 令 bda_bif 指 向 网 络 接口 的 BPF 接 口 结构 。 接 着 ，bpf_d 结 构 被 插入 到 与 设 
备 对 应 的 bpf_d 结 构 链表 的 头 部 。 最 后 ， 改 变 网 络 接口 中 的 BPF 指 针 ， 指 向 当前 BPF 结 构 ， 从 
而 促使 接口 向 BPF 设 备 传递 分 组 。 


31.5 ”BPF 的 输入 


一 旦 BPF 设 备 打 开 并 配置 完毕 ， 应 用 进程 就 通过 read 系 统 调用 从 接口 中 接收 分 组 。BPF 
过 旋 程 序 复制 输入 分 组 ， 因 此 ， 不 会 干扰 正常 的 网 络 处 理 。 输 入 分 组 保存 在 与 BPF 设 备 相连 
的 存储 缓存 和 暂 留 缓存 中 。 


31.5.1 bpt_tap 函 数 


下 面 列 出 了 图 4-11 中 LANCE 设 备 驱动 程序 调用 bpf_tap 的 代码 ， 并 利用 这 一 调用 介绍 
bpf_tap 国 数 。 图 4-11 中 的 调用 如 下 : 


bpf tap(le-»sc if.if bpf, buf, len + sizeof(struct ether, header)); 


图 31-18 给 出 了 bpf_tap 国 数 。 


869 void ?pf 
870 bpf tap(arg, pkt, pktlen) 
871 caddr t arg; 
872 u char *pkt; 
873 u, int pktlen; 
874 ( 
875 Struct bpf if *bp; 
876 struct bpf d *d; 
877 u, int slen; 
878 /* 
879 * Note that the ipl does not have to be raised at this point. 
880 * The only problem that could arise here is that if two different 
881 * interfaces shared any data. This is not the case. 
882 */ 
883 bp - (struct bpf if *) arg; 
884 for (d = bp-»bif dlist; d !- 0; d = d->bd next) ( 
885 *rd-»bd rcount; 
886 slen = bpf filter(d-»bd filter, pkt, pktlen, pktlen); 
887 if (slen !- 0) 
888 catchpacket(d, pkt, pktlen, slen, bcopy); 
889 } 
890 } 
bpf.c 





图 31-18 bpf_tap 国 数 
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869-882 第 一 个 参数 是 指向 bpf_if 结 构 的 指针 ， 由 bpfattach 设 定 。 第 二 个 参数 是 指向 
进入 分 组 的 指针 ， 包 括 以 太 网 首部 。 第 三 个 参数 等 于 缓存 中 包含 的 字 节 数 ， 本 例 中 ， 等 于 以 
太 网 首部 (14 字 节 ) 大 小 加 上 以 太 网 帧 的 数据 部 分 。 

向 一 个 或 多 个 BPF 设 备 传递 分 组 
883-890 ， for 循环 遍历 连接 到 网 络 接口 的 BPF 设 备 链 表 。 对 每 个 设备 ， 分 组 被 递交 给 
bpf_filter。 如 果 过 滤 程 序 接受 了 分 组 ， 它 返回 捕 提 到 的 字 节 数 ， 并 调用 catchpacket 
复制 分 组 。 如 果 过 滤 程 序 拒绝 了 分 组 ，s1len 等 于 0， 循 环 继续 。 循 环 终止 时 ，bpf_tap 返 回 。 
这 一 机 制 确保 了 同一 网 络 接 口上 对 应 了 多 个 BPF 设 备 时 ， 每 个 设备 都 能 拥有 一 个 独立 的 过 滤 
程序 。 

环 回 驱 动 程序 调 用 bpf_mtap， 向 BPF 传 递 分 组 。 这 个 函数 与 ppf_tap 类 似 ， 然 而 是 在 
mbuf 链 ， 而 不 是 在 一 个 内 存 的 连续 区 域 中 复制 分 组 。 本 书 中 不 介绍 这 个 函数 。 


31.5.2 catchpacketifi 


图 31-18 中 ， 过 滤 程 序 接受 了 分 组 后 ， 将 调用 catchpacket， 图 31-19 给 出 了 这 个 函数 。 
bpf.c 





946 static void 

947 catchpacket(d, pkt, pktlen, snaplen, cpfn) 
948 struct bpf d *d; 

949 u char *pkt; 

950 u.int pktlen, snaplen; 


951 void (*cpfn) (const void *, void *, u int); 

952 ( 

953 struct bpf hdr *hp; 

954 int totlen, curlen; 

955 int hdrlen = d-»bd bif-»bif hdrlen; 

956 /* 

957 * Figure out how many bytes to move. If the packet is 
958 * greater or equal to the snapshot length, transfer that 
959 * much. Otherwise, transfer the whole packet (unless 
960 * we hit the buffer size limit). 

961 */ 

962 totlen = hdrlen + min(snaplen, pktien); 

963 if (totlen » d-»bd bufsize) 

964 totlen = d-»bd bufsize: 

965 /* 

966 * Round up the end of the previous packet to the next longword. 
967 */ 

968 curlen = BPF, WORDALIGN(d-»bd slen); 

969 if (curlen + totlen > d-»bd bufsize) ( 

970 /* 

971 * This packet will overflow the storage buffer. 
972 * Rotate the buffers if we can, then wakeup any 
973 * pending reads. 

974 */ 

975 if (d-»bd fbuf == 0) ( 

976 /* 

977 * We haven't completed the previous read yet, 
978 * so drop the packet. 

979 */ 

980 **d-»bd dcount; 


图 31-19 catchpacketER A 
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981 return; 

982 ) 

983 ROTATE BUFFERS (d); 

984 bpf wakeup(d); 

985 curlen - 0; 

986 ) else if (d-»bd immediate) 

987 /* 

988 * Immediate mode is set. A packet arrived so any 
989 * reads should be woken up. 

990 */ 

991 bpf wakeup (d); 

992 /* 

993 * Append the bpf header. 

994 */ 

995 hp = (struct bpf hdr *) (d-»bd sbuf + curlen); 

996 microtime(&hp-»bh,tstamp); 

997 hp-»bh datalen = pktlen; 

998 hp-»bh hdrlen = harlen; 

999 /* 

1000 * Copy the packet data into the store buffer and update its length. 
1001 */ 

1002 (*cpfn) (pkt, (u_char *) hp + hdrlen, (hp-»bh caplen = totlen - hdrlen)); 
1003 d-»bd slen = curlen + totlen; 
1004 ) 


bpf.c 
图 31-19 (£&) 


946-955 catchpacket 的 参数 包括 : Q， 指 向 BPF 设 备 结构 的 指针 ; pkt， 指 向 进入 分 组 
的 通用 指针 ; pkt1len， 分 组 被 接收 时 的 长 度 ; snaplen， 从 分 组 中 保存 下 来 的 字 节 数 ; 
cpfn， 函 数 指针 ， 把 分 组 从 pkt 中 复制 到 一 块 连续 内 存 中 。 如 果 分 组 已 经 保存 连续 内 存 中 ， 
则 cptn 等 于 bcopy。 如 果 分 组 被 保存 在 mbuf 中 (pkt 指 向 mbuf 链 表 中 的 第 一 个 mbuf， 如 环 回 
驱动 程序 )， 则 cptn 等 于 ppf_mcopy。 

956-964 除了 链 路 层 首 部 和 分 组 ，catchpacket 为 每 个 分 组 添加 bpf_hdr。 从 分 组 中 保 
存 的 字 节 数 等 于 snaplen 和 pkt1len 中 较 小 的 一 个 。 处 理 过 的 分 组 和 bpf_hdr 必 须 能 放 入 分 
组 缓存 中 (bd_bufsize 字 节 )。 

l. 分 组 能 否 放 入 缓存 

965-985 curlen 等 于 存储 缓存 中 已 有 的 字 节 数 加 上 所 需 的 填充 字 节 ， 以 保证 下 一 分 组 能 
从 长 字 边 界 处 开始 存放 。 如 果 进 入 分 组 无 法 放 人 剩余 的 缓存 空间 ， 说 明 存 储 缓存 已 满 。 如 果 
空闲 缓存 不 可 用 (如 应 用 进程 正 从 暂 留 缓存 中 读 取 数 据 )， 则 进入 分 组 被 丢弃 。 如 是 空闲 缓存 可 
用 ， 则 调用 ROTATE_BUFFERS 宏 轮转 缓存 ， 并 通过 bpf_wakeup 唤 醒 所 有 等 待 输入 数据 的 应 


用 进程 。 

2. 立即 方式 处 理 
986-991 ”如 果 设 备 处 于 立即 方式 ， 则 唤醒 所 有 等 待 进程 以 处 理 进入 分 组 一 一 内 核 中 没有 分 
组 的 缓存 。 

3. 添加 BPF 首部 


992-1004 当前 时 间 (microtime)、 分 组 长 度 和 首部 长 度 均 保 存在 bpf_har 中 。 调 用 cptf 
所 指 的 函数 ， 把 分 组 复制 到 存储 缓存 ， 并 更 新 存储 缓存 的 长 度 。 因 为 在 把 分 组 从 设备 缓存 传 
送 到 某 个 mbuf 链 表 之 前 ，bpf_tab 已 由 leread 直 接 调用 ， 接 收 时 间 蕉 近 似 等 于 实际 的 接收 
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时 间 。 
31.5.3 bpfread 攀 数 


内 核 把 针对 BPF 设 备 的 read 转 交 给 bpfread 处 理 。 通 过 BIOCSRTIMEOUT 命 令 ，BPF 支 
持 限 时 读 取 。 这 个 “特性 ”也 可 通过 se1lect 系 统 调用 来 实现 ， 但 至 少 tcpdump 还 是 采用 了 
BIOCSRTIMEOUT， 而 非 select 。 应 用 进程 提供 一 个 读 缓存 ， 能 够 与 设备 的 暂 留 缓存 大 小 相 
匹配 。BICOGBLEN 命 令 返 回 缓存 大 小 。 一 般 情况 下 ， 读 操作 在 存储 缓存 已 满 时 返回 。 内 核 轮 
转 缓 存 ， 把 存储 缓存 转 给 暂 留 缓存 ， 后 者 在 read 系 统 调用 时 被 复制 到 应 用 进程 提供 的 读 缓存 ， 
同时 BPF 设 备 继续 向 存储 缓存 中 存放 进入 分 组 。 图 31-20 给 出 了 bpfread。 





344 int bpf.c 
345 bpfread(dev, uio) 

346 dev t dev; 

347 struct uio *uio; 

348 ( 

349 struct bpf d *d = &bpf, dtab(minor(dev)]; 

350 int error; 

351 int S; 

352 /* 

353 * Restrict application to use a buffer the same size as 
354 * as kernel buffers. 

355 */ 

356 if (uio-»uio resid !- d-»bd bufsize) 

357 return (EINVAL); 

358 s = Splimp(): 

359 /* 

360 * If the hold buffer is empty, then do a timed sleep, which 
361 * ends when the timeout expires or when enough packets 
362 * have arrived to fill the store buffer. 

363 */ 

364 while (d-»bd hbuf == 0) ( 

365 if (d-»bd immediate && d-»bd slen !- 0) ( 

366 /* 

367 * A packet(s) either arrived since the previous 
368 * read or arrived while we were asleep. 

369 * Rotate the buffers and return what's here. 
370 */ 

371 ROTATE, BUFFERS (d); 

372 break; 

373 } 

374 error - tsleep((caddr t) d, PRINET | PCATCH, "bpf", d-»bd rtout); 
375 if (error -- EINTR || error == ERESTART) ( 

376 splx(s); 

377 return (error); 

378 J 

379 if (error == EWOULDBLOCK) ( 

380 /* 

381 * On a timeout, return what's in the buffer, 
382 * which may be nothing. If there is something 
383 * in the store buffer, we can rotate the buffers. 
384 */ 

385 if (d-»bd hbuf) 


图 31-20 bpfreadmHij* 
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386 /* 

387 * We filled up the buffer in between 

388 * getting the timeout and arriving 

389 * here, so we don't need to rotate. 

390 */ 

391 break; 

392 if (d-»bd slen == 0) ( 

393 Splx(s); 

394 return (0); 

395 ) 

396 ROTATE BUFFERS (d); 

397 break; 

398 ) 

399 } 

400 /* 

401 * At this point, we know we have something in the hold slot. 

402 */ ` 

403 splx(s); 

404 /* 

405 * Move data from hold buffer into user space. 

406 * We know the entire buffer is transferred since 

407 * we checked above that the read buffer is bpf bufsize bytes. 

408 */ 

409 error = uiomove(d-»bd hbuf, d-»bd hlen, UIO READ, uio); 

410 S - splimp(); 

411 d-»bd fbuf = d-»bd hbuf; 

412 d-»bd, hbu£ = 0; 

413 d-»bd hlen = 0; 

414 Splx(s); 

415 return (error); 

416 ) i 
bpfc 


图 31-20 (5) 


344-357 通过 最 小 设备 号 在 bpf_atab 中 寻找 相应 的 BPF 设 备 。 如 果 读 缓存 不 能 匹配 BPF 设 
备 缓存 的 大 小 ， 则 返回 EINVAL。 

1. 等 待 数据 
358-364 因为 多 个 应 用 进程 能 够 从 同一 个 BPF 设 备 中 读 取 数据 ， 如 果 有 某 个 进程 已 先 读 取 
了 数据 ，whi1e 循 环 将 强迫 读 操作 继续 。 如 果 暂 留 缓存 中 存在 数据 ， 循 环 被 跳 过 。 这 与 两 个 
应 用 进程 通过 两 个 不 同 的 BPF 设 备 过 滤 同 一 个 网 络 接 口 的 情况 (见习 题 31.2) 是 不 同 的 。 

2. 立即 方式 
365-373 如 果 设 备 处 于 立即 方式 ， 且 存储 缓存 中 有 数据 ， 则 轮回 缓存 ，while 循 环 被 终止 。 

3. 无 可 用 的 分 组 
374-384 如 果 设 备 不 处 于 立即 方式 ， 或 者 存储 缓存 中 设 有 数据 ， 则 应 用 进程 进入 休眠 状态 ， 
直到 某 个 信号 到 达 ， 读 定时 器 超时 ， 或 者 有 数据 到 达 暂 留 缓 存 。 如 果 有 信号 到 达 ， 则 返回 
EINTR 或 ERESTART。 

记 住 ， 应 用 进程 不 会 见 到 ERESTART， 因 为 SYSscall 函 数 将 处 理 这 一 错误 ， 且 
不 会 向 应 用 进程 返回 这 一 错误 。 
4. 查看 暂 留 缓存 
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385-391 如 果 定 时 器 超时 ， 且 暂 留 缓 在 中 存在 数据 ， 则 循环 终止 。 

5. 查看 存储 缓存 
392-399 ”如 果 定 时 器 超时 ， 且 存储 缓存 中 没有 数据 ， 则 read 返 回 9。 应 用 进程 执行 限时 读 
取 时 ， 必 须 考虑 到 这 种 情况 。 如 果 定 时 器 超时 ， 且 存储 缓存 中 存在 数据 ， 则 把 存储 缓存 转 给 
暂 留 缓存 ， 循 环 终 止 。 

如 果 tsleep 返 回 正常 且 存 在 数据 ， 同 时 while 循 环 测 试 失败 ， 则 循环 终止 。 

6. 分 组 可 用 
400-416 循环 终止 时 , 暂 留 缓存 中 已 有 数据 uiomove 从 暂 留 缓存 中 移出 bad_hlen 个 字 节 ， 
交 给 应 用 进程 。 把 暂 留 缓存 转 给 空闲 缓 存 ， 清 除 缓存 计数 器 ， 函 数 返 回 。uiomove 调 用 前 的 
注释 指出 ，uiomove 通 常 能 向 应 用 进程 复制 bd_hlen 字 节 的 数据 ， 因 为 前 面 已 检查 过 读 缓存 
大 小 ， 确 保 它 大 于 BPF 设 备 缓存 的 最 大 值 ， 即 bad_bufsize。 


31.6 ”BPF 的 输出 


最 后 ， 我 们 讨论 如 何 向 带 有 BPF 设 备 的 网 络 接口 输出 队列 中 添加 分 组 。 首先， 应 用 进程 必 
须 构造 完整 的 数据 链 路 帧 。 对 以 太 网 而 言 ,包括 源 和 目的 主机 的 硬件 地 址 和 数据 帧 类 型 (图 4-8)。 
内 核 在 把 它 放 入 接口 的 输出 队列 前 不 会 修改 链 路 帧 。 


bpfwritepi 


内 核 把 应 用 进程 的 write 系统 调用 转 给 图 31-21 给 出 的 ppfwrite 处 理 ， 数 据 帧 被 传 给 
BPF 设 备 。 


-C 
437 int bpf. 
438 bpfwrite(dev, uio) 

439 dev t dev; 

440 struct uio *uio; 

441 ( 

442 struct bpf d *d - &bpf dtab[minor(dev)]; 

443 struct ifnet *ifp; 

444 struct mbuf *m; 

445 int error, S; 

446 static struct sockaddr dst; 

447 int datlen; 

448 if (d-»bd, bif == 0) 

449 return (ENXIO); 

450 ifp = d-»bd bif-»bif ifp; 

451 if (uio-»uio resid == 0) 

452 return (0); 

453 error = bpf movein(uio, (int) d-»bd bif-»bif, dlt, &m, &dst, &datlen); 
454 if (error) 

455 return (error): 

456 if (datlen > ifp-»if mtu) 

457 return (EMSGSIZE); 

458 S - splnet(); 

459 error - (*ifp-»if output) (ifp, m, &dst, (struct rtentry *) 0); 

460 splx(s); 


图 31-21 bpfwrite 国 数 
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461 /* 
462 * The driver frees the mbuf. 
463 */ 
464 return (error); 
465 } 
bpf.c 
图 31-21 ( 续 ) 
1. 检查 设备 号 


437-449 通过 最 小 的 设备 号 选择 BPF 设 备 ， 它 必须 已 连接 到 某 个 网 络 接口 。 如 果 还 没有 ， 
则 返回 ENXIO。 

2. 向 mbuf 链 中 复制 数据 
450-457 如果 write 给 出 的 写 入 数据 长 度 等 于 0， 则 立即 返回 9。。bpf_movein 从 应 用 进程 
复制 数据 到 一 个 mbuf 链 表 ， 并 基于 由 bif_dlt 传 递 的 接口 类 型 计算 去 除了 链 路 层 首部 后 的 分 
组 长 度 ， 并 在 datlen 中 返回 该 值 。 它 还 在 ast 中 返回 一 个 已 初始 化 过 的 sockaqddr 结 构 。 对 
以 太 网 而 言 ， 这 个 地 址 结构 的 类 型 应 该 等 于 AF_UNSPEC， 说 明 mbuf 链 中 保存 了 外 出 数据 帧 的 
数据 链 路 层 首 部 。 如 果 分 组 大 于 接口 的 MTU， 则 返回 EMSGSIZE。 

3. 分 组 排队 
458-465 调用 ifnet 结 构 中 指定 的 1f_output 函 数 ， 得 到 的 mbuf 链 被 提交 给 网 络 接口 。 
对 于 以 太 网 ，if_output 等 于 ether_output。 


31.7 小 结 


本 章 中 ， 我 们 讨论 了 如 何 配置 BPF 设 备 ， 如 何 向 BPF 设 备 递 交 进 入 数据 帧 ， 及 如 何在 一 个 
BPF 设 备 上 传送 外 出 数据 帧 。 
一 个 网 络 接口 可 以 有 多 个 BPF 设 备 ， 每 个 BPF 设 备 都 有 自己 的 过 让 程序 。 存 储 缓存 和 暂 留 
缓存 最 大 限度 地 减少 了 应 用 进程 为 了 处 理 进 入 数据 帧 而 调用 read 的 次 数 。 
本 章 中 只 介绍 了 BPE 的 一 些 主 要 特性 。 有 关 BPF 设 备 过 滤 程 序 代码 的 详细 情况 和 其 他 一 些 
特性 ， 感 兴趣 的 读者 请 参阅 源 代码 和 Net/3 手 册 。 
习题 
31.1 为 什么 在 分 组 存 人 BPF 缓 存 之 前 ， 就 能 在 catchpacket 中 调用 bpf_wakeup? 
31.2 图 31-20 中 ， 我 们 提 到 可 能 会 有 两 个 进程 在 同一 BPF 设 备 上 等 待 数据 。 图 31-11 中 ， 
我 们 指出 同一 时 间 只 能 有 一 个 应 用 进程 可 以 打开 一 个 特定 的 BPF 设 备 。 为 什么 这 两 
种 说 法 都 正确 呢 ? 
31.3 如 果 BIOCSETIF 命 令 中 指定 的 设备 不 支持 BPF， 会 发 生 什么 现象 ? 
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32.1 引言 


应 用 进程 在 Internet 域 中 创建 一 个 SOCK_RAW 类 型 的 插口 ， 就 可 以 利用 原始 IP 层 。 一 般 有 
下 列 3 种 用 法 : 

1) 应 用 进程 可 利用 原始 插口 发 送 和 接收 ICMP 和 IGMP 报 文 。 
Ping 程 序 利用 这 种 类 型 的 插口 ， 发 送 ICMP 回 显 请 求 和 接收 ICMP 回 显 应 答 。 
有 些 选 路 守护 程序 ， 利 用 这 一 特性 跟踪 通常 由 内 核 处 理 的 ICMP 重 定向 报 文 段 。 我 们 在 
19.7 节 中 提 到 ，Net/3 处 理 重 定向 报 文 段 时 ， 会 在 需 重 定向 的 插口 上 生成 
RTM_REDIRECT 消 息 ， 从 而 无 需 利 用 原始 插口 的 这 一 功能 。 
这 个 特性 还 用 于 实现 基于 ICMP 的 协议 ， 如 路 由 通告 和 路 由 请 求 ( 卷 1 的 9.6 节 )， 它 们 需 
用 到 ICMP， 不 过 最 好 由 应 用 进程 ， 而 不 是 内 核 完成 相应 处 理 。 
多 播 路 由 守护 程序 利用 原始 IGMP 播 口 ， 发 送 和 接收 IGMP 报 文 。 

2) 应 用 进程 可 利用 原始 插口 构造 自己 的 IP 首 部 。 路 由 跟踪 程序 利用 这 一 特性 生成 自己 的 
UDP 数据 报 ， 包 括 卫 和 UDP 首部 。 

3) 应 用 进程 可 利用 原始 插口 读 写 内 核 不 支持 的 IP 协 议 的 IP 数 据 报 。 
gated 程 序 利 用 这 一 特性 支持 基于 下 的 路 由 协议 EGP、HELLO 和 OSPF。 
这 种 类 型 的 原始 插口 还 可 用 于 设计 基于 IP 的 新 的 运输 层 协 议 ， 而 无 需 增 加 对 内 核 的 支 
持 。 调 试 应 用 进程 代码 比 调试 内 核 代 码 容易 得 多 。 

本 章 介绍 原始 IP 插 口 的 实现 。 


32.2 代码 介绍 
图 32-1 给 出 的 C 文 件 中 包含 了 5 个 原始 IP 处 理 函 数 。 


图 32-1 本 章 讨论 的 文件 


图 32-2 给 出 了 5 个 原始 IP 尔 数 与 其 他 内 核 函 数 间 的 关系 。 

带 阴 影 的 椭圆 表示 我 们 在 本 章 中 将 要 讨论 的 5 个 函数 。 请 注意 ， 原 始 IP 函 数 名 中 的 前 缀 
“rip” 表 示 “ 原 始 IP (Raw IP)”， 而 不 是 “ 选 路 信息 协议 (Routing Information Protocol)", 后 者 
的 缩写 也 是 RIP。 












32.2.1 全 局 变量 
本 章 中 用 到 4 个 全 局 变量 ， 如 图 32-3 所 示 。 
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getsockopt . 
系统 初始 化 插口 接收 缓存 setsockopt 多 种 系统 调用 










domaininit 








PRU. SEND 








ES 


软 中 断 
图 32-2 原始 下 函数 与 其 他 内 核 函 数 间 的 关系 


Cr 









| struct inpcb | 原始 IP 的 Intermet PCB | 
(ERA HR. A EETUROIPIUAE 


rip recvspace u, long 插口 接收 缓存 大 小 默认 值 ，8192 字 节 
rip sendspace u, long 插口 发 送 缓 存 大 小 默认 值 ，8192 字 节 


图 32-3 本 章 介 绍 的 全 局 变量 





32.2.2 统计 量 
始 IP 在 ipstat 结 构 ( 图 8-4) 中 维护 两 个 计数 器 ， 如 图 32-4 所 示 。 
ips_noproto 协议 类 型 未 知 或 不 支持 的 数据 报 数目 
ips rawout 生成 的 原始 IP 数 据 报 总 数 
图 32-4 ipstat 结 构 中 维护 的 原始 IP 统 计量 

图 8-6 给 出 了 如 何在 SNMP 中 使 用 ips._noproto 计 数 器 。 图 8-5 给 出 了 这 两 个 计数 器 输出 
值 的 例子 
32.3 原始 IP 的 protosw 结 构 














与 所 有 其 他 协议 不 同 ，inetsw 数 组 有 多 条 记录 都 可 以 读 写 原始 中 。inetsw 结 构 中 有 4 个 
记录 的 插口 类 型 都 等 于 SOCK_RAW， 但 协议 类 型 则 各 不 相同 : 

。IPPROTO_ICMP( 协 议 值 由 )):; 

。IPPROTO_IGMP( 协 议 值 2); 

。IPPROTO_RAW( 协 议 值 255); 和 
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“原始 了 P 通 配 记 录 ( 协 议 值 0)。 


其 中 ICMP 和 IGMP， 前 面 已 介绍 过 (图 11-12 和 图 13-9)。 四 项 记录 间 的 区 别 总 结 如 下 : 
， 如 果 应 用 进程 创建 了 一 个 原始 插口 (SOCK_RAW)， 协 议 值 非 零 (socket 的 第 三 个 参数 )， 
并 且 如 果 协 议 值 等 于 IPPROTO_ICMP、IPPROTO_IGMP 或 TPPROTO_RAW， 则 会 使 用 


对 应 的 protosw 记 录 。 


。 如果 应 用 进程 创建 了 一 个 原始 插口 (SOCK_RAW)， 协 议 值 非 零 ， 但 内 核 不 支持 该 协议 ， 
pffindproto 会 返回 协议 值 为 0 的 通 配 记 录 ， 从 而 允许 应 用 进程 处 理 内 核 不 支持 的 IP 协 


议 ， 而 无 需 修改 内 核 代码 。 


我 们 在 7.8 节 中 提 到 ，ip_protox 数 组 中 的 所 有 未 知 记 录 都 指向 IPPROTO_RANW， 它 的 协 


议 转 换 类 型 如 图 32-5 所 示 。 


pr type SOCK RAW 原始 插 日 


pr_domain & inetdomain 属于 Internet 域 的 原始 IP 

pr protocol IPPROTO RAW(255) 出 现在 IP 首 部 的 ip_P 字 段 
pr. flags PR, ATOMIC!PR ADDR 插口 层 标志 ， 不 用 十 协议 处 理 
pr_input rip_input 从 IP 层 接收 报 文 段 


pr_output 0 原始 IP 不 使 用 
pr_ctlinput 0 原始 IP 不 使 用 


pr_ctloutput rip ctlinput 响应 应 用 进程 的 管理 请 求 
pr usrreq rip usrreq 响应 应 用 进程 的 通信 请 求 


pr_init 原始 IP 不 使 用 
pr_fasttimo 原始 IP 不 使 用 
pr_slowtimo 原始 IP 不 使 用 
pr_drain 原始 IP 不 使 用 
pr sysctl 原始 IP 不 使 用 





图 32-5 原始 IP 的 protosw 结 构 


本 章 中 我 们 将 介绍 3 个 以 zip_ 开 头 的 国 数 ， 此 外 还 大 致 提 一 下 zip_output 图 数 ， 它 设 


有 出 现在 协议 转换 记录 中 ， 但 输出 原始 IP 报 文 段 时 ，rip_usrreq 将 会 调用 它 。 


第 五 个 原始 了 函数 ，rip_init， 只 出 现在 通 配 处 理 记录 中 。 初 始 化 函数 只 能 调用 一 次 ， 
所 以 它 既 可 以 出 现在 ITPPROTP_RAW 记 录 中 ， 也 可 以 放 在 通 配 记录 中 。 

不 过 ， 图 32-5 中 并 没有 说 明 其 他 协议 ICMP 和 IGMP)， 在 它们 自己 的 protosw 结 构 中 也 用 
到 了 一 些 原始 卫 函 数 。 图 32-6 对 4 个 SOCK_RRAW 协 议 各 自 Protosw 结 构 的 相关 成 员 变量 做 了 一 


个 比较 。 为 了 强调 指出 彼此 间 的 区 别 ， 不 同 之 处 都 用 黑体 字 标 出 。 




























Protosw SOCK, RAW 协议 类 型 
记录 | TPPROTO_TCM (1) 

pr input icmp input igmp input rip input 
pr. output rip output rip output rip output 
pr ctloutput | rip ctloutput rip ctloutput rip ctloutput 
pr.usrreq rip usrreq rip usrreq rip usrreq 
pr init 0 igmp init 
pr .syscti icmp syscti 0 
pr fasttimo 0 igmp. fasttimo 











图 32-6 原始 播 口 的 协议 散 转 值 的 比较 















rip input 

rip output 
rip ctloutput 
rip .usrreq 
rip init 

Ü 

0 
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不 同 BSD 版 本 中 ， 原 始 IP 的 实现 各 有 不 同 。ip_protox 表 中 ， 协 议 号 等 于 
IPPROTO_RAW 记 录 通 常 都 用 做 通 配 记 录 以 支持 未 知 的 IP 协 议 ， 而 协议 号 等 于 0 的 记 
录 通 常 做 为 默认 记录 ， 从 而 允许 应 用 进程 读 写 内 核 不 支持 的 IP 协 议 数据 报 。 

应 用 进程 使 用 IPPROTO_RAW 记 录 ， 最 早 见 于 Van Jacobson 开 发 的 Traceout， 这 
是 第 一 个 需要 自己 写 IP 首 部 (改变 TTL 字 段 ) 的 应 用 进程 。 为 了 支持 Traceout， 修 订 了 
4.3BSD 和 Net1， 和 包括 修改 rip_output， 在 收 到 协议 号 等 于 IPPROTO_RRAW 的 数据 
报时 ， 假 定 应 用 进程 提交 了 一 个 完整 的 IP 数 据 报 ， 包 括 IP 首 部 。 在 Net/2 中 ， 引 入 了 
IP_HDRINCL 桂 口 选项 ， 简 化 了 IPPROTO_RAW 的 用 法 ， 允 许 应 用 进程 利用 通 配 记 
录 发 送 自己 的 IP 首 部 。 


32.4 rip_init 范 数 
系统 初始 化 时 ，domaininit 国 数 调用 原始 耻 初 始 化 男 数 rip_init (图 32-7)。 





- raw. ip.c 
47 void 
48 rip init() 
49 ( 
50 rawinpcb.inp next - rawinpcb.inp prev - &rawinpcb; 
51 ) . 
raw_ip.c 





图 32-7 rip initEU 


这 个 函数 执行 的 唯一 操作 是 令 PCB 首 部 (rawinpcb) 中 的 前 向 和 后 向 指针 都 指向 自己 ， 实 
现 一 个 空 的 双向 链表 。 

只 要 某 个 socket 系 统 调用 创建 了 SOCK_RAW 类 型 的 插口 ， 下 面 将 介绍 的 原始 IP 
PRU ATTACHERÉE EE GI EE—^ Internet PCB， 并 插入 到 rawinpcb 链 表 中 。 
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因为 ip_protox 数 组 中 保存 的 所 有 关于 未 知 协议 记录 都 指向 IFPPROTO_RAW( 图 7-8)， 且 
后 者 的 pr_input 函 数 指向 rip_input (图 32-6)， 所 以 只 要 某 个 接收 IP 数 据 报 的 协议 号 内 核 
无 法 识别 ， 就 会 调用 此 函数 。 但 从 图 32-2 可 看 出 ，ICMP 和 IGMP 都 可 能 调用 rip_input， 只 
要 满足 下 列 条 件 : 

。i cmp_input 调 用 rip_input 处 理 所 有 未 知 的 ICMP 报 文 类 型 和 所 有 非 响 应 的 ICMP 报 文 。 

。igmp_input 调 用 rip_input 处 理 所 有 IGMP 分 组 。 

上 述 两 种 情况 下 ， 调 用 rip_input 的 一 个 原因 是 允许 创建 了 原始 插口 的 应 用 进程 处 理 新 
增 的 ICMP 和 IGMP 报 文 ， 内 核 可 能 不 支持 它们 。 

图 32-8 给 出 了 rip_input 国 数 。 

59 void 


60 rip input (m) 
61 struct mbuf *m; 


raw, ip.c 


62 ( 
63 struct ip *ip - mtod(m, struct ip *); 
64 struct inpcb *inp; 


图 32-8 rip input A 


59-66 


ripsrc 将 做 为 参数 传 给 sbappendaddr 。 与 UDP 不 同 ， 原 始 IP 设 有 端口 号 的 概念 ， 因 此 
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struct socket *last = 0; 


ripsrc.sin addr = ip-»ip src; 


for (inp = rawinpcb.inp next; inp !- &rawinpcb; inp = inp-»inp next) 
if (inp-»inp ip.ip p && inp-»inp ip.ip p !- ip-»ip.p) 
continue; 


if (inp-»inp laddr.s addr && 
inp-»inp, laddr.s addr == ip-»ip dst.s  addr) 
continue; 
if (inp-»inp faddr.s addr && 
inp-»inp faddr.s addr == ip-»ip src.s, addr) 
continue; 
if (last) ( 
struct mbuf *n; 
if (n = m copy (m, 0,. (int) M COPYALL)) ( 
if (sbappendaddr(&last-»so rcv, &ripsrc, 
n, (struct mbuf *) 0) == 0) 
/* should notify about lost packet */ 
m freem(n); 
else 
sorwakeup (last); 


) 
last = inp-»inp socket; 
) 
if (last) ( 
if (sbappendaddr(&last-»so rcv, &ripsrc, 
m, (struct mbuf *) 0) == O0) 
m freem(m); 
else 
sorwakeup (last); 
} else ( 
m_freem(m); 
ipstat.ips_noproto++; 
ipstat.ips_delivered--; 
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raw_ip.c 


图 32-8 (5 


IP 数 据 报 中 的 源 地 址 被 保存 在 全 局 变量 ripsrc 中 ， 只 要 找到 了 匹配 的 PCB， 


sockaddr_in 结 构 中 的 sin_port 总 等 于 0。 

2. 在 所 有 原始 IP PCB 中 寻找 一 个 或 多 个 匹配 的 记录 
67-88 原始 IP 处 理 PCB 表 的 方式 与 UDP 和 TCP 不 同 。 前 面 介 绍 过 ， 这 两 个 协议 维护 一 个 指针 ， 
总 是 指向 最 近 收 到 的 报 文 段 ( 单 报 文 段 缓存 )， 并 调用 通用 函数 in_pcblookup 寻 找 一 个 最 佳 


匹配 (如 果 收 到 的 数据 报 不 同 于 缓存 中 的 记录 )。 由 于 原始 了 P 数 据 报 可 能 发 送 到 多 个 揪 口 上， 所 
以 无 法 使 用 in_pcblookup， 因 此 ， 必 须 遍 历 原 始 PCB 链 表 中 的 所 有 PCB 。 这 一 点 类 似 于 


UDP 处 理 广播 报 文 段 和 多 播报 文 段 的 方式 (图 23-26)。 
3. 协议 比较 


68-69 如 果 PCB 中 的 协议 字段 非 零 ， 并 且 与 P 首 部 的 协议 字段 不 匹配 ， 则 PCB 被 忽略 。 也 说 


明 协 议 值 等 于 0(socket 的 第 三 个 参数 ) 的 原始 插口 能 够 匹配 所 有 收 到 的 原始 I 下 报 文 段 。 
4. 比较 本 地 和 和 远 菇 IP 地 址 
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70-75 ”如 果 PCB 中 的 本 地 地 址 非 零 ， 并 且 与 IP 首 部 的 目的 IP 地 址 不 匹配 ， 则 PCB 被 忽略 。 如 
果 PCB 中 的 远 端 地 址 非 零 ， 并 且 与 IP 首 部 的 源 IP 地 址 不 匹配 ，PCB 被 忽略 。 

上 述 3 种 测试 说 明 应 用 进程 能 够 创建 一 个 协议 号 等 于 0 的 原始 插口 ， 即 不 绑 定 到 本 地 地 址 ， 
也 不 与 远 端 地 址 建立 连接 ， 可 以 接收 经 rip_input 处 理 的 所 有 数据 报 。 

代码 71 行 和 74 行 都 有 同样 的 错误 : 相等 测试 ， 实 际 应 为 不 相等 测试 。 

5. 递交 接收 数据 报 的 复制 报 文 段 以 备 处 理 
76-94 sbappendadqr 向 应 用 进程 提交 一 个 接收 数据 报 的 复制 报 文 段 。 变 量 1ast 的 使 用 与 
图 23-26 中 的 用 法 类 似 : 因为 sbappendqaddqzr 把 报 文 段 放 入 到 适当 队列 中 后 将 释放 所 有 mbuf， 
如 果 有 多 个 进程 接收 数据 报 的 复制 报 文 段 ，rip_input 必 须 调用 m_copy 保 存 一 份 复制 报 文 
段 。 但 如 果 只 有 一 个 应 用 进程 接收 数据 报 ， 则 无 需 复制 。 

6. 无 法 上 交 的 数据 报 
95-99 如 果 无 法 为 数据 报 找到 相 匹 配 的 插口 ， 则 释放 mbuf， 递 增 ips_noproto， 递 减 
ips_delivered。IP 在 调用 rip_input 之 前 已 经 递增 过 后 一 个 计数 器 (图 8-15)。 由 于 数据 
报 实际 上 没有 上 交 给 运输 层 ， 因 此 ， 必 须 递减 fps_delivered， 确 保 两 个 SNMP 计 数 器 ， 
ipInDiscards 和 ijpInDelivers (图 8-16)， 的 正确 性 。 

本 节 开 始 时 ， 我们 提 到 ，icmp_input 会 为 未 知 报 文 类 型 或 非 响应 报 文 调用 
rip_input， 意 味 着 如 果 收 到 ICMP 主 机 不 可 达 报 文 ， 且 rip_input 找 不 到 可 匹配 
的 原始 插口 PCB ，ips_noproto 会 递增 。 这 也 说 明 为 什么 图 8-$ 中 的 计数 器 值 较 大 。 

在 前 面 对 该 计数 器 的 描述 中 提 到 “未 知 或 不 支持 的 协议 ”， 这 种 说 法 是 不 正确 的 。 

如 果 收 到 的 IP 数 据 报 带 有 的 协议 字段 ， 了 既 无 法 为 内 核 辩 识 ， 也 无 法 由 某 个 应 用 进 
程 通过 原始 插口 处 理 ，Net/3 不 会 生成 差错 代码 等 于 2( 协 议 不 可 达 ) 的 ICMP 目 的 不 可 
达 报 文 。RFC 1122 建 议 出 现 此 种 情况 时 应 该 生成 ICMP 差 错 报 文 (参见 习题 32.4)。 


32.6 rip output! 


图 32-6 中 ，ICMP、IGMP 和 原始 IP 都 调用 rip_output 实 现 原始 IP 输 出 。 应 用 进程 调用 5 
个 写 函 数 之 一 send、sendto、sendmsg、write 和 writev， 系 统 将 输出 报 文 段 。 如 果 
插口 已 建立 连接 ， 就 可 以 任意 调用 上 述 5 个 函数 ， 尽 管 sendto 和 sendmsg 中 不 能 规定 目的 地 
址 。 如 果 插 口 没 有 建立 连接 ， 则 只 能 调用 sendto 和 sendmsg， 且 必须 规定 目的 地 址 。 

图 32-9 给 出 了 rip_output 国 数 。 

1. 内 核 填充 IP 首 部 
119-128 如 果 IP_HDRINCR 插 口 选 项 未 定义 ，M_PREPEND 为 IP 首 部 分 配 空间 ， 并 填充 IP 首 
部 各 字段 。 此 处 未 填充 的 字段 留待 ip_output 初 始 化 (图 8-22)。 协 议 字段 等 于 PCB 中 保存 的 
值 ， 并 且 是 图 32-10 中 socket 系 统 调用 的 第 三 个 参数 。 

TOS 等 于 0，TTL 等 于 255。 内 核 为 原始 下 插口 填充 各 首部 字段 时 ， 通常 都 使 用 这 些 固 定 值 。 
这 与 UDP 和 和 TCP 不同， 应 用 进程 能 够 通过 插口 选项 设 定 ITP_TTL 和 IP_TOS 值 。 
129 应 用 程序 通过 IP_oPTIONS 揪 口 选 项 设 定 的 所 有 了 P 选 项 ， 都 通过 opts 变 量 传 给 
ip_output 国 数 。 

2. 调用 者 填充 IP 首 部 : IP. HDRINCRdé u $Ñ 


130-133 


#32% Æ 36 IP — 845 


如 果 选 用 了 IP_HDRINCR 插 口 选项 ， 调 用 者 在 数据 报 前 提供 完整 的 IP 首 部 。 如 果 


应 用 进程 提供 的 ID 字段 等 于 0， 对 此 类 下 首部 需 做 的 唯一 修改 是 ID 字段 。 卫 数据 服 的 ID 字段 可 
以 等 于 0。 此 处 ，rip_output 对 ID 字段 的 赋值 可 以 简化 应 用 进程 的 处 理 ， 直 接 设 ID 字 段 等 
于 0，rip_output 向 内 核 请 求 内 核 变量 ip_ia 的 当前 值 ， 做 为 IP 报 文 段 的 IPD 值 。 

134-136 令 opts 为 空 ， 忽 略 应 用 进程 通过 IP_OPTIONS 可 能 设 定 的 任何 下 选项 。 如 果 调 用 
者 构建 了 自己 的 IP 首 部 ， 其 中 肯定 已 包括 了 调用 者 希望 加 入 的 下 选项 。flags 变 量 中 必须 有 
IP_RAWOUTPUT 标 志 ， 告 诉 ip_output 不 要 修改 IP 首 部 。 





105 int T2 Ae 
106 rip output(m, so, dst) 

107 struct mbuf *m; 

108 struct socket *so; 

109 u long dst; 

110 ( 

111 struct ip *ip; 

112 struct inpcb *inp - sotoinpcb(so); 

113 struct mbuf *opts; 

114 int flags = (so-»so options & SO DONTROUTE) | IP, ALLOWBROADCAST; 
115 /* 

116 * If the user handed us a complete IP packet, use it. 

117 * Otherwise, allocate an mbuf for a header and fill it in. 
118 */ 

119 if ((inp-»inp flags & INP HDRINCL) == 0) ( 

120 M PREPEND(m, sizeof(struct ip), M WAIT); 

121 ip - mtod(m, struct ip *); 

122 ip-»ip.tos = 0; 

123 ip-»ip off = 0; 

124 ip-»ip p = inp-»inp ip.ip p: 

125 ip-»ip len = m-»m pkthdr.len; 

126 ip-»ip src = inp-»inp laddr; 

127 ip-»ip dst.s addr - dst; 

128 ip-»ip ttl - MAXTTL; 

129 opts - inp-»inp options; 

130 ) else ( 

131 ip - mtod(m, struct ip *); 

132 if (ip-»ip id == 0) 

133 ip-»ip id = htons(ip id«r); 

134 . opts - NULL; 

135 /* XXX prevent ip output from overwriting header fields */ 
136 flags |= IP RAWOUTPUT; 

137 ipstat.ips  rawout-e-*; 

138 } 

139 return (ip outputí(m, opts, &inp->inp_route, flags, inp-»inp moptions)); 
140 } ] 





raw ip.c 


图 32-9 rip output 


137 计数 器 ips_rawout 递 增 。 执 行 Traceroute 时 ，Traceroute 每 发 送 一 个 变量 就 会 导致 此 变 


Sm. 


rip_output 的 操作 在 不 同 版 本 中 也 有 所 变化 。 在 Ne3 中 使 用 IP_HDRINCL 播 


口 选 项 时 ，rip_output 对 IP 首 部 所 做 的 唯一 修改 就 是 填充 ID 字段 ， 如 果 应 用 进程 
将 其 定 为 0。 因 为 TP_RANOUTPUT 标 志 置 位 ，NeU3 中 的 ip_output 函 数 不 改 动 ]P 首 


$46 TCP/IP ¥® #2: 实现 


部 。 但 在 NeU2 中 ， 即 使 ITP_HDRINCL 播 口 选 项 设 定 时 ， 它 也 会 修改 IP 首 部 中 特定 字 


32.7 rip usrreqif 


协议 的 用 户 请 求 处 理 函 数 能 够 完成 多 种 操作 。 与 UDP 和 TCP 的 用 户 请 求 处 理 函 数 类 似 ， 
rip_usrredq 是 一 个 很 大 的 switch 语 句 ， 每 个 PRU_xxx 请 求 ， 都 有 一 个 对 应 的 case 子 句 。 
图 32-10 给 出 的 PRU_ATTACH 请 求 ， 来 自 socket 系 统 调 用 。 





- raw_ip.c 
194 int 
195 rip usrreq(so, req, m, nam, control) 
196 struct socket *so; 
197 int req; 
198 struct mbuf *m, *nam, *control; 
199 ( 
200 int error - 0; 
201 struct inpcb *inp = sotoinpcb(so):; 
202 extern struct socket *ip mrouter; 
203 switch (req) ( 
204 case PRU, ATTACH: 
205 if (inp) 
206 panic("rip attach*); 
207 if ((so-»so state & SS PRIV) == 0) ( 
208 error - EACCES; 
209 break; 
210 H 
211 if ((error - soreserve(so, rip sendspace, rip recvspace)) || 
212 (error - in pcballoc(so, &rawinpcb))) 
213 break; 
214 inp = (struct inpcb *) so-»so pcb; 
215 inp-»inp ip.ip p = (int) nam; 
216 break; ` . 
TQW p.c 


图 32-10 rip_usrred 国 数 : PRU_ATTACH 请 求 


194-206 每 次 socket 函数 被 调用 时 ， 都 会 创建 新 的 socket 结 构 ， 此 时 还 没有 指向 某 个 
Internet PCB 。 

1. 确认 超级 用 户 
207-210 只 有 超级 用 户 才 能 创建 原始 播 口 ， 这 是 为 了 防止 普通 用 户 向 网 络 发 送 自己 的 IP 数 
据 报 。 

2. 创建 Internet PCB ， 保 留 缓存 空间 
211-215 为 输入 和 输出 队列 保留 所 需 空间 ， 调 用 in_pcballoc 分 配 新 的 Internet PCB， 添 
加 到 原始 IP PCB 链 表 中 (rawinpcb)， 并 与 socket 结 构建 立 对 应 关系 。rip_usrreq 的 nam 
参数 就 是 socket 系统 调用 的 第 三 个 参数 : 协议 。 它 被 保存 在 PCB 中 ， 因 为 rip_input 需 用 
它 上 交 收 到 的 数据 报 ，rip_output 也 要 把 它 填 和 人 到 外 出 数据 报 的 协议 字段 中 (如 果 
IP_HDRINCL 未 设 定 )。 

原始 IP 插 口 与 远 端 IP 地 址 建立 的 连接 ， 与 UDP 插 口 和 远 端 玉 地 址 建立 的 连接 相 类 似 。 它 固 
定 了 原始 插口 只 能 接收 来 自 于 特定 地 址 的 数据 报 ， 如 我 们 在 rip_input 中 所 看 到 的 。 原 始 IP 


与 UDP 一 样 ， 是 一 个 无 连接 协议 ， 下 面 两 种 情况 下 会 发 送 PRU_DISCONNECT 请 求 : 
1) 关闭 建立 连接 的 原始 插口 时 ， 在 PRU_DETACH 之 前 会 先 发 送 PRU_DISCONNECT 请 
2) 如 果 对 一 个 已 建立 连接 的 原始 插口 调用 connect，soconnect 在 发 送 PRU_CONNECT 
请 求 前 会 先 发 送 PRU_DISCONNECT 请 求 。 
图 32-11 给 出 了 PRU_DISCONNECT、PRU_ABORT 和 PRU_DETACH 请 求 。 


raw_ip.c 

217 case PRU_DISCONNECT: 

218 if ((so->so_state & SS ISCONNECTED) == 0) { 

219 error = ENOTCONN; 

220 break; 

221 } 

222 /* FALLTHROUGH */ 

223 Case PRU ABORT: 

224 soisdisconnected(so); 

225 /* FALLTHROUGH */ 

226 case PRU, DETACH: 

227 if (inp == O0) 

228 panic("rip detach"); 

229 if (so == ip mrouter) 

230 ip mrouter, done(); 

231 in pcbdetach(inp); 

232 break; . 
raw ip.c 


图 32-11 rip_usrreq 国 数 : PRU_DISCONNECT、PRU_ABORT 和 PRU_DETACH 请 求 


217-222 如 果 处 理 PRU_DISCONNECT 请 求 的 插口 没有 进入 连接 状态 ， 则 返回 错误 。 
223-225 ”尽管 禁止 在 一 个 原始 插口 上 发 送 PRU_ABORT 请 求 ， 这 个 case 语 句 实际 上 是 
PRU_DISCONNECT 请 求 处 理 的 延续 。 插 口 转 入 断 开 状 态 。 
226-230 close 系 统 调用 发 送 PRU_DETACH 请 求 ， 这 个 case 语 句 还 将 结束 
PRU_DISCONNECT 请 求 的 处 理 。 如 果 socket 结 构 用 于 多 播 选 路 (ip_mrouter)， 则 调用 
ip_mrouter_done 取 消 多 播 选 路 。 一 般 情况 下 ，mrouted (8) 守 护 程序 会 通过 
DVMPR_DONE 插 口 选项 取消 多 播 选 路 ， 因 此 ， 这 个 条 件 用 于 防止 nrouted (8) 在 没有 正确 设 
定 插口 选项 之 前 就 异常 终止 了 。 
231 调用 in_pcbqdetach 释 放 Internet PCB， 并 从 原始 IP PCB 表 (rawinpcb) 中 删除 。 

通过 PRU_BIND 请 求 ， 可 以 把 原始 IP 插 口 绑 定 到 某 个 本 地 IP 地 址 上 ， 如 图 32-12 所 示 。 我 
们 在 rip_input 中 指出 ， 插 口 将 只 能 接收 发 向 该 地 址 的 数据 报 。 
233-250 ”应 用 进程 向 sockaddr_in 结 构 填 充 本 地 IP 地 址 。 下 列 3 个 条 件 必 须 全 真 ， 否 则 将 
返回 差错 代码 EADDRNOTAVAIL: 

1) 至 少 配置 了 一 个 IP 接 口 ; 

2) 地 址 族 应 等 于 AF_INET (或 者 AF_IMPLINK， 历 史上 人 为 造成 的 不 一 致 ); 和 

3) 如 果 绑 定 的 下 地 址 不 等 于 0.0.0.0， 它 必须 对 应 于 某 个 本 地 接口 。 调 用 者 的 sockadar_in 
中 的 端口 号 必须 等 于 0， 否 则 ，ifa_ifwithaddr 将 返回 错误 。 

本 地 IP 地 址 保存 在 PCB 中 。 
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raw_ip.c 

233 case PRU_BIND: 

234 { 

235 struct sockaddr in *addr = mtod(nam, struct sockaddr in *); 

236 if (nam-»m len !- sizeof(*addr)) ( 

237 error - EINVAL; 

238 break; 

239 J 

240 if ((ifnet == 0) |l 

241 ((addr-»sin family !- AF INET) && 

242 (addr-»sin family !- AF IMPLINK)) |I 

243 (addr-»sin, addr.s, addr && 

244 ifa ifwithaddr((struct sockaddr *) addr) == 0)) ( 

245 error - EADDRNOTAVAIL; 

246 break; 

247 } 

248 inp-»inp laddr = addr-»sin addr; 

249 break; 

250 } 
raw_ip.c 


图 32-12 rip_usrreGg 国 数 : PRU_BIND 请 求 


应 用 进程 还 可 以 在 原始 IP 插 口 与 某 个 特定 远 端 P 地 址 间 建 立 连接 。 我 们 在 rip_input 中 

指出 ， 这 样 可 以 限制 应 用 进程 只 能 接收 源 IP 地 址 等 于 连接 对 端 IP 地 址 的 数据 报 。 应 用 进程 可 
以 同时 调用 bind 和 connect， 或 者 两 者 都 不 调用 ， 取 决 于 它 希望 rip_input 对 接收 数据 报 
采用 的 过 滤 方 式 。 图 32-13 给 出 了 PRU_CONNECT 请 求 的 处 理 逻 辑 。 
251-270 ”如 果 调 用 者 的 sockaddr_in 初 始 化 正确 ， 且 至 少 配置 了 一 个 IP 接 口 ， 则 指定 的 
远 端 地 址 将 存储 在 PCB 中 。 注 意 ， 这 一 处 理 和 UDP 插口 建立 与 远 端 了 地 址 的 连接 有 所 不 同 。 
对 于 UDP，in_pcbconnect 申 请 到 达 远 端 地 址 的 一 条 路 由 ， 并 把 外 出 接口 视 为 本 地 地 址 (图 
22-9)。 对 于 原始 IP， 只 有 远 端 IP 地 址 存储 到 PCB 中 ， 除 非 应 用 进程 还 调用 了 binad,， 
rip_input 将 只 比较 远 端 地 址 。 


raw. ip.c 

251 case PRU CONNECT: 

252 { 

253 struct sockaddr in *addr = mtod(nam, struct sockaddr, in *); 

254 if (nam-»m len !- sizeof(*addr)) ( 

255 error - EINVAL; 

256 break; 

257 ) 

258 if (ifnet == 0) ( 

259 error - EADDRNOTAVAIL; 

260 break; 

261 ) 

262 if ((addr-»sin family !- AF INET) && 

263 (addr-»sin, family !- AF IMPLINK)) ( 

264 error = EAFNOSUPPORT; 

265 break; 

266 ) 

267 inp-»inp faddr = addr-»sin addr; 

268 Soisconnected(so); 

269 break; 

270 ) . 
raw_ip.c 





图 32-13 rip_usrrea 国 数 : PRU_CONNECT 请 求 


£323 Æ Jé IP X 849 


应 用 进程 结束 发 送 数据 后 ， 调 用 shutdown， 生 成 PRU_SHUTDOWN 请 求 ， 尽 管 应 用 进程 
很 少 为 原始 IP 插 口 调用 shutdown。 图 32-14 给 出 了 PRU_CONNECT2 和 PRU_SHUTDOWN 请 求 
的 处 理 逻 辑 。 





271 case PRU_CONNECT2 : TOU p.c 
272 error - EOPNOTSUPP; 
273 break; 
274 /* 
275 * Mark the connection as being incapable of further input. 
276 */ 
277 Case PRU, SHUTDOWN: 
278 Socantsendmore(so); 
279 break; 
raw_ip.c 





图 32-14 PRU_CONNECT2 和 PRU_SHUTDOWN 请 求 


271-273 原始 IP 插 口 不 支持 PRU_CONNECT2 请 求 。 
274-279 socantsendmore 团 位 播 昌 标志， 禁止 所 有 输出 。 

图 23-14 中 ， 我 们 给 出 了 5 个 写 函 数 如 何 调用 协议 的 pr_usrreq 函 数 ， 发 送 PRU_SEND 请 
求 。 图 32-15 给 出 了 这 个 请 求 的 处 理 逻 辑 。 








280 7> TQU, ip.c 

281 * Ship a packet out. The appropriate raw output 

282 * routine handles any massaging necessary. 

283 */ 

284 Case PRU SEND: 

285 { 

286 u long dst; 

287 if (so-»so,.state & SS ISCONNECTED) { 

288 if (nam) ( 

289 error - EISCONN; 

290 break; 

291 ) 

292 dst = inp-»inp faddr.s addr; 

293 ) else { ` 

294 if (nam == NULL) ( 

295 error = ENOTCONN; 

296 break; 

297 ) 

298 dst = mtod(nam, struct sockaddr in *)-»sin addr.s addr; 

299 ) 

300 error - rip output(m, so, dst); 

301 m - NULL; ` 

302 break; 

303 ) . 
raw_ip.c 


图 32-15 rip_usrreq 函 数 : PRU_SEND 请 求 


280-303 ”如果 播 口 处 于 连接 状态 ， 则 调用 者 不 能 指定 目的 地 址 (nam 参 数 )。 如 果 揪 口 未 建立 
连接 ， 则 需要 指明 目的 地 址 。 不 管 哪 种 情况 ， 只 要 条 件 满 足 ，dst 将 等 于 目的 了 地址。 
rip_output 发 送 数据 报 。 令 mbuf 指 针 m 为 空 ， 防 止 函 数 结束 时 释放 mbuf 链 。 因 为 接口 输出 
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例 程 发 送 数 据 报 之 后 会 释放 mbuf 链 ( 记 住 ，rip_output 向 ijp_output 提 交 mbuf 链 ， 
ip_output 把 它 加 入 到 接口 的 输出 队列 中 )。 

图 32-16 给 出 了 rip_usrreq 的 最 后 一 部 分 代码 。 由 fstat 系 统 调用 生成 的 PRU_SENSE 
请 求 ， 没 有 返回 值 。PRU_SOCKADDR 和 PRU_PEERADDR 请 求 分 别 由 getsockname 和 
getpeername 系 统 调用 生成 。 原 始 卫 插口 不 支持 其 余 请 求 。 

319-324 图 数 in_setsockaddqr 和 jin_setpeeraddqr 能 够 从 PCB 中 读 取 信息 ， 在 nam 参 
数 中 返回 结果 。 





raw. ip.c 

304 Case PRU, SENSE: 

305 /* 

306 * fstat: don't bother with a blocksize. 

307 */ 

308 return (0); 

309 /* 

310 * Not supported. 

311 */ 

312 case PRU, RCVOOB: 

313 case PRU RCVD: 

314 case PRU, LISTEN: 

315 Case PRU ACCEPT: 

316 Case PRU SENDOOB: 

317 error - EOPNOTSUPP; 

318 break; 

319 case PRU, SOCKADDR: 

320 in.setsockaddr (inp, nam); 

321 break; 

322 Case PRU PEERADDR: 

323 in setpeeraddr(inp, nam); 

324 break; 

325 default: 

326 panic("rip usrreq"); 

327 ) 

328 if (m != NULL) 

329 m freem(m); 

330 return (error); 

331 ) - 
raw ip.c 





图 32-16 rip_usrreq 函 数 : 剩余 的 请 求 


32.8 rip_ctloutput ži 


setsockoptfigetsockoptň%AWMrip_ctloutput, EAE — AIP D AF8 


个 用 于 多 播 选 路 的 插口 选项 。 
”图 32-17 给 出 了 rip_ctloutput 函 数 的 第 一 部 分 。 





raw _ip.c 
144 int 
145 rip ctloutput(op, so, level, optname, m) 
146 int op; 


147 struct socket *so; 


图 32-17 rip_usrredq 函 数 : 处 理 IP_HDRINCL 播 口 选项 
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148 int level, optname; 

149 struct mbuf **m; 

150 ( 

151 struct inpcb *inp = sotoinpcb(so); 

152 int error; 

153 if (level != IPPROTO IP) 

154 return (EINVAL); 

155 switch (optname) { 

156 case IP HDRINCL: 

157 if (op == PRCO SETOPT || op == PRCO GETOPT) ( 

158 if (m == 11 *m == || (*m)-»m len < sizeof(int)) 
159 return (EINVAL); 

160 if (op == PRCO SETOPT) ( 

161 if (*mtod(*m, int *)) 

162 inp-»inp flags |= INP, HDRINCL; 
163 else 

164 inp-»inp.flags &- ^INP HDRINCL; 

165 (void) m free(*m); 

166 ) else ( 

167 (*m)-»m len - sizeof(int); 

168 *mtod(*m, int *) - inp-»inp flags & INP, HDRINCL; 
169 H 

170 return (0); 

171 } 

172 break; 


raw_ip.c 





图 32-17 ( 续 ) 


144-172 保存 新 选项 值 或 者 选项 当前 值 的 mbuf 至 少 要 能 容纳 一 个 整数 。 对 于 set sockopt 
系统 调用 ， 如 果 mbuf 中 的 整数 值 非 零 ， 则 设 定 该 标志 ， 否 则 清除 它 。 对 于 getsockopt 系 统 
调用 ，mbuf 中 的 返回 值 要 么 等 于 0， 要 么 是 非 零 的 选项 值 。 函 数 返回 ， 以 避免 switch 语 句 结 








束 时 处 理 其 他 IP 选 项 。 
图 32-18 给 出 了 rip_ctloutput 久 数 的 最 后 一 部 分 ， 处 理 8 个 多 播 选 路 插口 选项 。 

raw_ip.c 

173 case DVMRP, INIT: 

174 case DVMRP, DONE: 

175 case DVMRP, ADD VIF: 

176 case DVMRP, DEL VIF: 

177 case DVMRP. ADD, LGRP: 

178 case DVMRP DEL, LGRP: 

179 case DVMRP ADD, MRT: 

180 case DVMRP. DEL MRT: 

/* shown in Figure 

188 } 

189 return (ip_ctloutput (op, so, level, optname, m)); 

190 ) 。 
raw_ip.c 





图 32-18 rip_usrregq 函 数 : 处 理 多 播 选 路 插口 选项 
173-188 ”这 8 个 插口 选项 只 对 setsockopt 系 统 调用 有 效 ， 它 们 由 图 14-9 讨 论 的 
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ip mrouter cmd REP. 
189 所 有 其 他 卫 播 口 选项 ， 如 设 定 了 选项 的 IP_oPTICONS， 则 由 ip_ctloutput 处 理 。 


32.9 小 结 


原始 插口 为 PP 主机 提供 3 种 功能 。 
1) 用 于 发 送 和 接收 ICMP 和 IGMP 报 文 。 
2) 支持 应 用 进程 构建 自己 的 了 首部 。 
3) 允许 应 用 进程 支持 基于 IP 的 其 他 协议 。 
原始 IP 较 为 简单 一 一 只 填充 IP 首 部 的 有 限 几 个 字段 一 一 但 它 允 许 应 用 进程 提供 自己 的 IP 首 
部 。 例 如 ， 调 试 程序 就 能 发 送 任 何 类 型 的 下 数据 报 。 
原始 IP 输 入 提供 了 3 种 处 理 方 式 ， 能 够 选择 性 地 接收 进入 的 IP 数 据 报 。 应 用 进程 基于 下 列 
因素 选择 接收 数据 报 : (1) 协议 字段 ; (2) 源 耳 地 址 (由 connect 指 明 ); (3) 目的 IP 地 址 (由 
bind 指 明 )。 应 用 进程 可 以 任意 组 合 上 述 3 种 过 滤 条 件 。 
习题 
321 假定 IP_HDRINCL 插 口 选项 未 设 定 。 如 果 socket 的 第 三 个 参数 等 于 0， 
rip_output 填 人 IP 首 部 协议 字段 (ip_p) 的 值 是 多 少 ? 如 果 socket 的 第 三 个 参数 
等 于 IPPROTO_RAW (255)，rip_output 填 入 该 段 (ip_p) 的 值 又 是 多 少 ? 
322 应 用 进程 创建 了 一 个 原始 插口 ， 协 议 值 等 于 TPPROTO_RAW (255)。 应 用 进程 在 这 
个 插口 上 将 收 到 什么 类 型 的 下 数据 报 ? 
323 应 用 进程 创建 了 一 个 原始 插口 ， 协 议 值 等 于 0。 应 用 进程 在 这 个 插口 上 将 收 到 什么 
类 型 的 IP 数 据 报 ? 
324 修改 rip_input， 在 适当 情况 下 发 送 代码 等 于 2 (协议 不 可 达 ) 的 ICMP 目 的 不 可 达 
报 文 。 请 注意 ， 不 要 为 rip_input 正 处 理 的 ICMP 或 IGMP 数 据 报 生成 一 个 差错 。 
32.5 如果 应 用 进程 希望 生成 自己 的 IP 数 据 报 ， 自 己 填充 下 首部 字段 ， 可 使 用 IP_HDRINCL 
选项 置 位 的 原始 PP 插口， 或 者 采用 BPF( 第 31 章 )， 两 种 方法 的 区 别 是 什么 ? 
32.6 什么 时 候 应 用 进程 应 该 读 取 原始 IP 插 口 ? 什么 时 候 读 到 BPF? 


Z5 R 语 


“我 们 已 走 了 很 长 一 段 路 。 前 面 的 九 章 中 给 出 了 大 量 的 代码 ， 其 中 有 很 多 地 方 值 
得 进一步 商讨 。 如 果 你 第 一 次 阅读 时 没 能 全 部 消化 ， 不 要 紧 一 那 是 不 可 能 的 。 即 使 
最 好 的 代码 也 需要 花 时 间 去 理解 ， 而且 你 不 可 能 完全 掌握 所 有 细节 ， 除 非 开 始 使 用 
并 修改 程序 。 学 习 编 程 的 唯一 方法 是 消化 代码 : 读 ， 修 改 ， 再 读 ” 
摘自 《软件 工具 》[Kernighan 和 Plauger 1976] 的 结束 语 
“事实 上 ， 在 这 个 RFC 中 ， 您 将 看 到 模块 化 与 性 能 是 不 可 兼 得 的 ， 设 计 者 往往 不 
得 不 在 良好 的 结构 和 优异 的 性 能 间 做 出 痛苦 但 不 可 避免 的 选择 。” 
摘自 RFC 817 [Clark 1982) 


本 书 详细 讨论 了 一 个 真正 操作 系统 中 非常 有 意义 的 一 部 分 代码 。 书 中 代码 的 各 个 版 本 是 
UNIX 内 核 ， 及 其 他 许多 非 UNIX 系 统 的 一 部 分 。 

我 们 讨论 的 代码 并 不 完美 ， 也 并 非 实 现 TCP/IP 协 议 栈 的 唯一 方式 。 过 去 15 年 中 ， 它 经 过 了 许 
多 人 的 修改 、 完 善 、 测 试 和 攻击 。 书 中 代码 的 很 大 一 部 分 甚至 不 是 由 加 州 大 学 伯克利 计算 机 系统 
研究 小 组 开发 的 : Stev Deering 编 写 了 多 播 代码 ，Thomas Skibo 加 入 了 对 长 肥 管 道 的 支持 ，Van 
Jacobson 开 发 了 部 分 TCP 代 码 ， 等 等 。 代 码 包含 了 很 多 goto 语 名 (准确 地 说 有 221 个 )、 许 多 大 范 数 
(如 tcp_input 和 tcp_output) 和 许多 有 问题 的 编码 风格 (我 们 试 着 在 讨论 代码 时 指出 它们 )。 尽 
管 如 此 ， 代 码 毫 无 疑问 具有 “事实 上 的 生命 力 ”， 是 添加 新 特性 的 基础 ， 衡 量 其 他 实现 的 标准 。 

伯克利 网 络 代码 设计 用 于 VAX 机 型 ， 当 时 带 4 兆 字 节 内 存 的 VAX-11/780 已 是 一 个 大 系统 
了 了。 因此、 许多 设计 思想 (如 mbuf) 为 了 节省 内 存 ， 而 牺牲 了 处 理性 能 。 如 果 现 在 重新 编写 全 
部 代码 ， 可 以 改变 这 一 点 。 

过 去 几 年 中 ， 越 来 越 强调 网 络 软件 的 处 理性 能 ， 因 为 底层 网 络 速成 度 正 变 得 越 来 越 快 (如 
FDDI 和 ATM)， 而 且 高 带宽 业务 正 不 断 涌 现 ( 如 声音 和 视频 )。 无 论 何 时 ， 设 计 幅 于 操作 系统 内 核 中 
的 网 络 软件 时 ， 简 洁 性 通常 会 让 位 给 速度 [Clark 1982]， 对 于 任何 实际 实现 ， 这 一 点 都 是 正确 的 。 

[Partridge 1993 ] 和 [Jacobson 1993] 给 出 了 Internet 协 议 的 一 个 实现 ， 主 要 用 于 研究 ， 设 计 
思想 侧重 于 性 能 的 提高 。[Jacobson 1993] 中 代码 的 处 理 速度 是 本 书 中 代码 处 理 速 度 的 10~100 
倍 ，BSD 系 统 中 常见 的 mbuf 软 件 中 断 和 多 数 协 议 分 层 都 被 抛弃 。 如 果 能 在 更 大 的 范围 内 使 用 ， 
不 久 的 将 来 ， 它 将 成 为 衡量 其 他 实现 的 新 标准 。 

1994 年 7 月 ，IPv4 的 下 一 版 本 IPv6 诞 生 了 。 它 采用 了 1238 bit(16 字 节 ) 地 址 。IP 和 ICMP 层 有 
了 很 多 变化 ， 但 运输 层 协 议 UDP 和 TCP 并 未 改变 (有 人 提出 了 TCPng， 下 一 代 TCP， 但 作者 认 
为 即使 仅仅 升级 IP， 对 于 世界 范围 内 的 厂商 和 Internet 用 户 而 言 ， 已 经 是 一 个 巨大 的 挑战 )。 一 - 
到 两 年 后 ， 才 会 出 现 商用 的 实现 ， 再 过 许多 年 ， 终 端 用 户 才 会 把 它们 的 主机 和 路 由 器 更 新 为 
IPv6。 在 实验 室 中 ， 基 于 本 书 代码 的 耻 v6 实 现 应 于 1995 年 初出 现 。 

为 了 加 深 对 伯克利 网 络 代码 的 了 解 ， 最 好 能 够 得 到 源 代码 ， 并 着 手 做 一 些 修 改 。 源 代码 
很 容易 得 到 (附录 B)， 书 中 有 大 量 习题 建议 了 可 进一步 改进 的 地 方 。 
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附录 A ”部 分 习题 的 解答 


SLIP 驱 动 程序 执行 spltty( 图 1-13)， 其 优先 级 必须 低 于 或 等 于 splimp， 且 高 于 
splnet。 因 此 ，SLIP 驱 动 程序 由 于 中 新 而 被 阻塞 。 


M_BXT 标 志 是 mbuf 自 身 的 一 个 属性 ， 而 不 是 mbuf 中 保存 的 数据 报 的 属性 。 

调用 者 请 求 大 于 100 字 节 (MHLEN) 的 连续 空间 。 

不 可 行 ， 因 为 多 个 mbuf 都 可 指向 徐 (2.9 节 )。 此 外 ， 簇 中 也 没有 用 于 后 向 指针 的 空间 
(习题 2.4)。 

在 <sys /mbuf .h> 定 义 的 宏 MCLALLOC 和 MCLDFREE 中 ， 我 们 看 到 引用 计数 器 是 一 个 
名 为 mclref cnt 的 数组 。 它 在 内 核 初始 化 时 被 分 配 ， 代 码 文 件 为 nachdep .c。 


采用 很 大 的 交互 式 队列 ， 并 不 符合 建立 队列 的 目的 ， 新 的 交互 式 流量 跟 在 原 有 流量 
之 后 ， 会 造成 附加 时 延 。 
因为 sl1_softc 结 构 都 是 全 局 变量 ， 内 核 初始 化 时 都 被 置 为 0。 


type 
nlen 
alen 
slen 


SLIP|* 


坏 回 





leread 必 须 查 看 数据 报 ， 确 认 把 数据 报 提交 给 BPF 之 后 ， 是 否 需要 将 其 丢弃 。 因 为 
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BPF 开 关 会 造成 接口 处 于 一 种 混杂 模式 ， 数 据 报 的 目的 地 有 可 能 是 以 太 网 中 的 其 他 
主机 ，BPF 处 理 完毕 后 ， 必 须 将 其 丢弃 。 

如 果 接 口 没 有 加 开关 ， 则 必须 在 ether_input 中 完成 这 一 测试 。 

如 果 测 试 反 过 来 ， 广 播 标志 永远 不 会 置 位 。 

如 果 第 二 个 if 前 没有 else， 所 有 广播 分 组 都 会 带 上 多 播 标志 。 


环 回 接口 不 需要 输入 函数 ， 因 为 它 接收 的 所 有 分 组 都 直接 来 自 于 1ooutput， 后 者 
实际 完成 了 输入 功能 。 

堆栈 分 配 快 于 动态 存储 器 分 配 。 对 BPF 处 理 ， 性 能 是 首要 考虑 的 因素 ， 因 为 对 每 个 
进入 数据 报 都 会 执行 该 代码 。 

缓存 洲 出 的 第 一 个 字 节 被 丢弃 ，SC_ERROR 置 位 ，s1input 重 设 徐 指针 ， 从 缓存 起 
始 处 开始 收集 字符 。 因 为 SC_ERROR 置 位 ，slinput 收 到 SLIP END 字 符 后， 丢弃 当 
前 接收 的 数据 帧 。 

如 果 检 验 和 无 效 或 者 正 首 部 长 度 与 实际 数据 报 长 度 不 匹配 ， 数 据 报 被 丢弃 。 

因为 1 fp 指向 le_softc 结 构 的 第 一 个 成 员 ， 

SC = (struct le softc*) ifp; 

sc 初始 化 正确 。 

这 是 非常 困难 的 。 某 些 路 由 器 在 开始 丢弃 数据 报时 ， 可 能 会 发 送 ICMP 源 站 抑制 报 文 
段 ， 但 NeV3 实 现 中 的 UDP 播 口 丢弃 这 些 报 文 段 (图 23-30)。 应 用 程序 可 以 使 用 与 TCP 
所 采用 的 相同 技术 : 根据 确认 的 数据 报 估算 往返 时 间 ， 确 认可 用 的 带宽 和 时 延 。 


IP 子 网 出 现 之 前 (RFC 950 [Mogul 和 Postel 1985])，IP 地 址 的 网 络 和 主机 部 分 都 以 字 
节 为 界 。in_addr 结 构 的 定义 如 下 : 


Struct in addr ( 


union ( 
struct { u_char s bl, s b2, s b3, s_b4; ) S un b; 
struct { u short s,wl, s w2; ) S un w; 
u long S, addr; 


) S. un; 
4$define s addr S un.S addr /* should be used for all code */ 
#define s, host S un.S, un b.s, b2 /* OBSOLETE: host on imp */ 
dPdefine s net S un.S un b.s bl /* OBSOLETE: network */ 
d$define s imp S un.S un, w.S. w2 /* OBSOLETE: imp */ 
Kdefine s, impno S un.S un b.s b4 /* OBSOLETE: imp # */ 
ddefine s lh S, un.S un b.s, b3 /* OBSOLETE: logical host */ 
} 

图 A-2 


Internet 地 址 读 写 单位 既 可 以 是 8 bit 字 节 ， 也 可 以 是 16 bit 单 字 ， 或 32 bit 双 字 。 宏 
s_host、s_net、s_imp 等 等 ， 它 们 的 名 字 明 确 地 反应 出 早期 TCP/IP 网 络 的 结构 。 
子 网 和 超 网 概念 的 3 引入， 淘汰 了 这 种 以 字 节 和 单字 区 分 的 做 法 。 


62 返回 指向 结构 s1_softcf0] 的 指针 。 
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8.7 
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接口 输出 函数 ， 如 ether_output， 只 有 一 个 指向 接口 ifnet 结 构 的 指针 ， 而 没有 
指向 ifaddr 的 指针 。 在 arpcom 结 构 ( 最 后 一 次 为 接口 设 定 的 1P 地 址 ) 中 使 用 IP 地 址 
可 以 避免 从 ifadar 地 址 链表 中 寻找 所 需 地 址 。 

只 有 超级 用 户 进程 才能 创建 原始 IP 插 口 。 通 过 UDP 插口 ， 任 何 用 户 进程 能 够 查看 接 
口 配 置 ， 但 内 核 仍 拥有 超级 用 户 特权 ， 能 够 修改 接口 地 址 。 

有 3 个 函数 循环 处 理 网 络 掩 码 ， 一 次 处 理 一 个 字 节 。 它 们 是 ifa_ifwithnet、 
ifaof _ifpforaddr 和 rt_maskedcopy。 较 短 的 网 络 掩 码 能 够 提高 这 些 函 数 的 性 能 。 
与 远 端 系统 建立 Telnet 连 接 。Net/2 系 统 不 应 该 转交 这 些 数据 报 ， 而 其 他 系统 不 会 接 
受到 达 环 回 接口 之 外 的 非 环 回 接口 的 环 回 数据 报 。 


下 列 调用 返回 指向 inetsw[6] 的 指针 : 


pffindproto(PF INET, 0, SOCK RAW); 


可 能 不 会 。 系 统 不 可 能 响应 任意 的 广播 报 文 ， 因 为 没有 可 供 响应 的 源 地 址 。 
因为 数据 报 已 经 损坏 ， 无 法 知道 首部 中 的 地 址 是 否 正确 。 

如 果 应 用 程序 选取 的 源 地 址 与 指定 的 外 出 接口 的 地 址 不 同 ， 则 无 法 发 送 到 下 一 跳 路 由 
器 。 如 果 下 一 跳 路 由 器 发 现 数据 报 源 地 址 与 其 到 达 的 子 网 地 址 不 符 ， 则 不 会 执行 下 一 
步 的 转发 操作 。 这 是 尽量 减少 终端 系统 复杂 性 带 来 的 后 果 ，RFC 1122 指 出 了 这 一 问题 。 
新 主机 认为 广播 报 文 来 自 于 某 个 没有 划分 子 网 的 网 络 中 的 主机 ， 并 试图 将 数据 报 发 
回 给 源 主 机 。 网 络 接口 开始 广播 ARP 请 求 ， 向 网 络 请 求 该 广播 地 址 ， 当 然 ， 这 一 请 
求 永远 不 会 收 到 响应 。 

减少 TTL 的 操作 出 现在 小 于 等 于 1 的 测试 之 后 ， 是 为 了 避免 收 到 的 TTL 等 于 0， 减 1 后 
将 等 于 255， 从 而 引起 操作 差错 。 

如 果 两 个 路 由 器 彼此 认为 对 方 是 某 个 数据 报 的 下 一 跳 路 由 器 ， 则 形成 环 路 。 除 非 该 
环 路 被 打破 ， 原 始 数据 报 在 两 个 路 由 器 间 来 回 传递 ， 并 且 每 个 路 由 器 都 向 源 主机 发 
送 ICMP 重 定向 报 文良 ， 如 果 该 主机 与 路 由 器 处 于 同一 个 网 络 中 。 路 由 更 新 时 ， 不 同 
路 由 器 中 的 路 由 表 暂 时 存在 的 不 一 致 现象 ， 会 造成 这 种 环 路 。 

原始 报 文 段 的 TTL 最 终 减 为 0， 数 据 报 被 委 弃 。 这 是 TIL 存 在 的 一 个 主要 原因 。 

不 会 检查 4 个 以 太 网 广播 地 址 ， 因 为 它们 不 属于 接收 接口 。 但 应 检查 有 限 的 广播 地 址 ， 说 
明 带 有 SLIP 链 路 的 系统 采用 有 限 的 广播 地 址 ， 即 使 不 知道 对 端 地 址 ， 也 能 与 对 端 通信 。 


8.10 只 对 数据 报 的 第 一 个 分 片 (分 片 偏 移 量 等 于 0) 生 成 ICMP 差 错 报 文 。 无 论 是 主机 字 闻 
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序 ， 还 是 网 络 字 节 序 ，0 的 表示 都 相同 ， 因 此 无 需 转换 。 


RFC 1122 建 议 如 果 数 据 报 中 的 选项 彼此 冲突 ， 处 理 方式 由 各 实现 代码 自己 决定 。 
Net/3 能 正确 处 理 第 一 个 源 路 由 选项 ， 但 因为 它 会 更 新 数据 报 首部 的 1p_dst， 第 二 
条 源 路 由 处 理 将 出 现 差错 。 

网 络 中 的 主机 也 可 以 用 做 到 达 网 络 其 他 主机 的 中 继 。 如 果 目 的 主机 不 可 直接 到 达 ， 
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源 主机 可 在 数据 报 中 加 入 路 由 ， 首 先 到 达 中 继 主机 ， 接 着 到 达 最 终 的 目的 主机 。 路 
由 器 不 会 丢弃 数据 报 ， 因 为 目的 地 址 指向 中 继 主 机 ， 后 者 将 处 理 路 由 并 把 数据 报 转 
发 给 最 终 目 的 主机 。 目 的 主机 把 路 由 反 转 ， 同 样 利 用 中 继 主机 转发 响应 。 

采用 与 前 一 个 习题 同样 的 原则 。 我 们 选取 一 个 能 够 同时 与 源 主 机 和 目的 主机 通信 的 
中 继 路 由 器 ， 并 构造 源 路 由 ， 穿 过 中 继 路 由 器 到 达 目 的 地 址 。 中 继 路 由 器 必须 与 目 
的 地 址 处 于 同一 个 网 络 ， 通 信 中 无 需 默 认 路 由 。 

如 果 源 路 由 是 仅 有 的 下 选项 ，NOP 选 项 使 得 所 有 了 王 地 址 以 4 字 节 边界 对 齐 ， 从 而 能 够 
优化 存储 器 中 的 地 址 读 取 操作 。 这 种 对 齐 技术 也 适用 于 多 个 下 选项 ， 如 果 每 个 下 选 
项 都 通过 NOP 填 充 ， 保 证 按 4 字 边界 对 齐 。 

不 应 混淆 非 标准 时 间 值 和 标准 时 间 值 ， 最 大 的 标准 时 间 值 等 于 86 399 399(24 x 60 x 60 x 
1000-1), 353528 bit 才 能 表示 。 由 于 时 间 值 有 32 bit， 从 而 避免 了 高 位 比特 的 混 满 问题 。 
源 路 由 选项 代码 在 处 理 过 程 中 可 能 会 改变 ip_dst。 保 存 目的 地 址 ， 从 保证 时 间 惟 处 
理 使 用 原始 目的 地 址 。 


重 装 后 ， 只 有 第 一 个 分 片 的 选项 上 交 给 运输 层 协议 。 
因为 数据 长 度 (204 + 20 ) 大 于 208( 图 2-16)。 
图 10-11 中 的 m_pul1lup 把 头 40 字 节 复 制 到 一 个 单独 的 mbuf 中 ， 如 图 2-18 所 示 。 


mbuf {} mbufí) 










m next NULL 
NULL 
184 
MT. DATA 
MEXT 
m pkthdr.len | — 7] 
| 





NULL 


2048 


接 下 来 的 184 字 节 数 据 报 


— 20487 A5 
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平均 每 个 数据 报 收 到 的 分 片 数 等 于 
72786-349 . 
16557 
平均 每 个 输出 数据 报 新 建 的 平均 分 片 数 等 于 
796084 _ 
260484 ^ | 
图 10-11 中 ， 数 据 报 最 初 被 做 为 分 片 处 理 。 当 ip_off 左 移 时 ,保留 的 比特 位 被 丢弃 。 
得 到 的 数据 报 被 视 为 分 片 或 一 个 完整 的 数据 报 ， 取 决 于 ME 和 分 片 偏 移 量 的 值 。 


4.4 





输出 响应 使 用 收 到 请 求 的 接口 的 产地 址 。 主 机 可 能 无 法 辩 识 0.0.0.0 是 一 个 有 效 的 广 
播 地 址 ， 因 此 ， 有 可 能 忽略 请 求 。 推 荐 的 广播 地 址 等 于 255.255.255.255 。 

假定 主机 发 送 了 一 个 链 路 层 的 广播 数据 报 ， 其 源 卫 地 址 是 另 一 台 主 机 的 地 址 ， 且 数 
据 报 有 差错 ， 如 内 容 差错 的 选项 。 所 有 主机 都 能 接收 并 检 而 出 差错 ， 因 为 这 是 一 个 
链 路 层 的 广播 报 文 ， 而 且 选 项 的 处 理 先 于 最 终 目 的 地 的 检测 。 许 多 发 现 差 错 的 主机 
会 向 数据 报 的 源 卫 地 址 发 送 ICMP 报 文 ， 即 使 原 数据 报 属于 链 路 层 广 播 。 另 -- 台 主 
机 将 收 到 大 量 假 的 ICMP 差 错 。 这 就 是 为 什么 不 允许 为 链 路 层 广 播 而 发 送 ICMP 差 错 
报 文 。 

第 一 个 例子 中 ， 这 种 重 定向 报 文 不 会 诱骗 主机 向 另 一 个 子 网 中 的 某 个 主机 发 送 报 文 
段 。 这 台 主 机 可 能 被 误 认为 是 路 由 器 ， 但 它 确实 记录 收 到 的 流量 。RFC 1009 规 定 路 
由 器 只 能 向 位 于 同一 个 子 网 的 其 他 路 由 器 发 送 重 定向 报 文 。 即 使 主机 忽略 了 这 些 要 
求 把 数据 报 转 发 到 另 一 个 子 网 的 报 文 段 ， 但 如 果 报 文 段 发 送 者 与 主机 处 于 同一 个 子 
网 中 ， 它 们 就 会 被 接受 。 第 二 个 例子 ， 为 了 防止 出 现 上 述 现象 ， 要 求 主 机 只 接受 它 
(错误 地 ) 选 定 的 原始 路 由 器 的 重 定 向 报 文 ， 即 假定 这 个 错误 的 路 由 器 是 管理 员 指 定 
的 默认 路 由 器 。 

通过 向 rip_input 传 递 报 文 段 ， 进 程 级 的 守护 程序 能 够 正确 响应 ， 一 些 依赖 于 这 
种 行为 的 老 系统 能 够 继续 得 到 支持 。 

ICMP 差 错 只 针对 IP 数 据 报 的 第 一 个 分 片 。 因 为 第 一 个 分 片 的 偏 移 量 值 必 等 于 0， 字 
段 的 字 节 表示 顺序 是 无 关 紧要 的 。 

如 果 收 到 ICMP 请 求 的 接口 还 未 配置 下 地 址 ， 则 ia 将 为 空 ， 且 不 生成 响应 。 

NeU3 处 理 与 时 间 裁 响应 一 起 到 达 的 数据 。 


11.10 高 位 比特 被 保留 ， 并 必须 设 为 0。 如 果 它 必须 被 发 送 ， 则 icmp_error 将 丢弃 数据 


报 。 


11341. 返回 值 被 丢弃 ， 因 为 cmp_send 不 返回 差错 。 更 重要 的 是 ，ICMP 报 文 处 理 过 程 
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12.1 


中 生成 的 差错 将 被 丢弃 ， 以 避免 进入 死 循环 ， 不 断 生 成 差错 报 文 。 


以 太 网 中 ， 了 广播 地 址 255.255.255.255 转 换 为 以 太 网 的 广播 地 址 和 fff:ff:ff:ff:ff， 网 
络 中 的 所 有 以 太 网 接口 都 会 接收 这 样 的 数据 帧 。 没 有 运行 IP 软 件 的 系统 必须 主动 接 
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收 并 丢弃 这 种 广播 报 文 。 
数据 报 需 发 送 给 多 播 组 224.0.0.1 中 的 所 有 主机 ， 转 换 后 的 以 太 网 多 播 地 址 为 
01:00:5e:00:00:01， 只 有 明确 要 求 其 接口 接收 IP 多 播报 文 的 系统 才 会 收 到 它 。 
没有 运行 下 或 者 在 链 路 层 不 兼容 的 系统 不 会 收 到 这 些 报 文 段 ， 因 为 以 太 网 接 只 的 硬 
件 已 直接 丢弃 了 这 些 报 文 段 。 

12.2 一 种 替代 方案 是 通过 文本 名 规定 接口 ， 如 同 ifreq 结 构 和 ioct1 命 令 存 取 接 日 信 息 
采取 的 方式 一 样 。ip_setmoptions 和 ip_getmoptions 可 以 调用 ifunit， 取 
代 INADDR_TO_IFP， 寻 找 指 向 接口 ifnet 结 构 的 指针 。 

123 多 播 组 高 位 4 bit 通 常 为 1110， 因 此 ， 只 有 5 个 有 意义 的 比特 被 匹配 函数 丢弃 。 

12.4 完整 的 ijp_moptions 结 构 必须 能 放 入 单个 mbuf 中 ， 从 而 限制 结构 最 大 只 能 等 于 
108 字 节 ( 记 住 20 字 节 的 mbuf 首 部 )。IP_MAX_MEMBERSHIPS 可 以 大 一 些 ， 但 必须 
小 于 等 于 25(4+1+1+2+(4 x 25)=108)。 

12.5 数据 报 重复 ， 在 了 了 输入 队列 中 有 两 份 复制 的 数据 报 。 多 播 应 用 程序 必须 能 识别 并 丢 


弃 重 复 的 数据 报 。 


图 A-4 


12.8 应 用 进程 可 以 创建 第 二 个 插口 ， 并 通过 第 二 个 插口 请 求 TP_MAX_MEMBERSHIPS。 

12.9 为 mbuf 首 部 的 m_flags 成 员 变 量 定义 一 个 新 的 mbuf 标 志 M_LOCAL。ip_output 处 
理 环 回 数据 报时 置 位 该 标志 ， 从 而 取代 检验 和 。 如 果 该 标 置 位 ，ipintr 就 跳 过 检 
验 和 验证 。SunOS 5.X 提 供 完成 此 功能 的 选项 (ijp_local_cksum， 卷 1 的 531 页 )。 

12.10 存在 22-1(8 388 607) 个 独立 的 以 太 网 了 多 播 地 址 。 记 住 保留 的 IP 组 224.0.0.0。 

12.11 这 个 假设 正确 ， 因 为 in_addmulti 拒 绝 所 有 新 增 请 求 ， 如 果 接 口 没有 调用 ioct 转 
数 ， 说 明 如 果 if_ioct1i 为 空 ， 则 永 不 会 调用 in_delmulti。 

12.12 mbuf 永 远 不 会 被 释放 ， 说 明 ip_getmoptions 包 含 了 一 个 存储 器 泄露 。 
ip_getmoptions 由 ip_ctloutput 调 用 ， 调 用 语句 如 下 : 


ip getmoptions (IP ADD MEMBERSHIP, 0, mp) 


会 引发 ip_getmoptions 中 的 一 个 差错 。 
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13.1 要 求 环 回 接口 响应 ICMP 请 求 是 没有 必要 的 ， 因 为 本 地 主机 是 环 回 网 络 中 唯一 的 系 
统 ， 它 已 经 知道 自己 的 成 员 状 态 。 

13.2 max linkhdr + sizeof (struct ip)-IGMP, MINLEN-1642048-44«100 

13.3. 报告 成 员 状 态 时 出 现 随机 延迟 的 主要 原因 是 为 了 最 大 限度 地 减少 出 现在 多 播 网 络 中 
的 报告 数 (理想 情况 下 应 等 于 1)。 一 个 点 到 点 网 络 只 包括 两 个 接口 ， 因 此 ， 无 需 延迟 
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以 减少 响应 的 数量 。 一 个 接口 (假定 是 一 个 多 播 路 由 器 ) 发 出 请 求 ， 另 一 个 接口 响应 。 


另 一 个 原因 是 避免 过 多 的 成 员 状 态 报 告 淹没 接口 的 输出 队列 。 大 量 IGMP 成 员 状 态 报 文 可 
能 会 超出 输出 队列 关于 数据 报 和 字 池 的 限制 。 例 如 ， 在 SL 了 驱动 程序 中 ， 如 果 输 出 队列 
已 满 或 设备 过 忙 ， 就 会 丢弃 队列 中 所 有 等 待 的 数据 报 (图 5-16)。 
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16.2 


5 个 ， 分 别 对 应 网 络 A~E。 

grplst_member 只 被 ljp_mforward 调 用 ， 但 在 协议 处 理 过 程 中 ， 
ip_mforward 又 将 被 jpintr 或 者 ip_output 调 用 ，ip_output 可 以 由 桂 口 层 
间接 调用 。 缓 存 是 一 个 共享 数据 区 ， 在 更 新 时 必须 加 以 保护 。add_1igrp 和 
del_lgrp 在 更 新 成 员 列 表 时 ， 通 过 sp1x 保 护 此 共享 数据 结构 。 
SIOCDELMULTI 命 令 只 影响 以 太 网 接口 的 多 播 列表 ， 不 改变 IP 多 播 组 列表 ， 因 此 ， 
接口 仍然 保留 为 组 中 成 员 。 只 要 依 提 是 接口 IP 组 列表 中 的 一 员 ， 接 口 将 继续 接收 属 
于 该 组 的 多 播 数据 报 。 

只 有 虚 接 口才 能 成 为 多 播 树 的 父 接口 。 如 果 分 组 在 隧道 上 接收 ， 那 么 对 应 的 物理 接 
口 不 可 能 成 为 父 接 口 ，ip_mforward 丢 弃 分 组 。 


插口 可 以 在 分 支 上 共享 ， 或 通过 UNIX 域 插口 传 给 应 用 进程 ([Stevens])。 
accept 返 回 后 ， 结 构 的 sa_1en 成 员 大 于 缓存 大 小 。 对 固定 长 度 的 Internet 地 址 而 
言 ， 这 不 是 问题 ， 但 它 有 可 能 用 于 可 变 长 度 的 地 址 ， 例 如 OSI 协议 支持 的 地 址 格式 。 
只 有 so_qlen 不 等 于 0 时 ， 才 会 调用 soqremque。 如 果 soqremque 返 回 一 个 空 指 
针 ， 说 明 插 口 队列 代码 必然 出 现 了 内 核 无 法 处 理 的 问题 。 

复制 的 目的 在 于 结构 锁定 时 仍 可 调用 bzero 清 零 ， 并 可 在 splx 后 接着 调用 
dom_dispose 和 sbrealse， 从 而 最 大 程度 地 减少 了 CPU 停 留 在 splimp 的 时 间 ， 
即 网 络 中 断 被 阻塞 的 时 间 。 

宏 sbspace 返 回 0， 从 而 sbappendaddr 和 sbappendcontrol 陆 数 ( 由 UDP 调 用 ) 
将 拒绝 向 队列 添加 新 报 文 段 。TCP 调 用 sbappenda， 后 者 假定 调用 者 已 事先 检查 过 
可 用 空间 。 即 使 sbspace 返 回 0，TCP 也 会 调用 sbappend， 但 放 入 接收 队列 中 的 
数据 还 不 能 提交 给 应 用 进程 ， 因 为 SS_CANTRCVMORE 标 志 阻 止 read 系 统 调用 返回 
任何 数据 。 


如 果 给 aio 结 构 中 的 uio_residq 赋 值 ， 它 将 成 为 一 个 大 负数 。sosenqg 拒 绝 带 有 
EINVAL 的 报 文 段 。 
Net/2 不 检查 负 值 ，sosend 起 始 处 的 注释 说 明了 这 个 问题 (图 16-23)。 


不 。 向 饶 中 填充 的 字 节 数 少 于 MCLBYTES 只 可 能 出 现在 报 文 段 尾部 ， 此 时 剩余 的 字 
节 数 小 于 MCLBYTES。 此 时 ，resid 等 于 0， 循 环 在 394 行 break 语 句 处 终止 ， 还 未 
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到 达 测 试 条 件 spce>0。 

应 用 进程 阻塞 ， 直 到 缓存 解锁 。 本 例 中 ， 只 有 在 另 一 个 进程 检查 缓存 或 向 协议 奶 传 
送 数据 时 ， 缓 存 才 会 被 锁定 ; 而 在 应 用 进程 等 待 缓存 可 用 空间 时 不 会 加 锁 ， 后 者 有 
可 能 等 待 无 限 长 的 时 间 。 

如 果 发 送 缓 存 包 括 许 多 mbuf， 每 个 都 包括 若干 字 节 的 数据 ， 那 么 当 mbuf 分 配 大 块 
存储 器 时 ，sb_cc 很 可 能 大 大 低 于 sb_hiwat 规 定 的 限制 。 如 果 内 核 不 限制 每 个 缓 
存 可 拥有 的 mbuf 的 数量 ， 应 用 进程 就 能 轻易 地 造成 存储 器 枯竭。 

recvit 分 别 由 recvfrom 和 recvmsg 调 用 。 只 有 recvmsg 处 理 控制 信息 。 它 把 完 
整 的 ms ghdr 结 构 ， 包 括 控 制 信息 长 度 ， 复 制 给 应 用 进程 。 至 于 地 址 信息 ， 

recvmsg 把 name1enp 参 数 设 为 空 ， 因 为 它 可 从 msg_namelen 中 得 到 所 需 长 度 。 
当 recvfrom 调 用 recvit 时 ，namelenp 非 空 ， 因 为 函数 需要 从 *namelenp 中 得 
到 所 需 长 度 。 

MSG_EOR 由 soreceive 清 除 ， 因 此 ， 它 不 可 能 在 M_EOR mbuf 被 处 理 前 ， 被 
soreceive 返 回 。 

select 检 查 描述 符 时 ， 实 际 上 存在 一 种 竞争 。 如 果 某 个 选 定 事件 发 生 在 selscan 
查看 描述 符 之 后 ， 但 在 select 调 用 tsleep 之 前 ， 该 事件 不 会 被 发 现 ， 应 用 进程 
将 保持 睡眠 状态 ， 直 到 下 一 个 选 定 事件 发 生 。 


简化 在 内 核 和 应 用 进程 间 复制 数据 的 代码 .copyin 和 copyout 可 用 于 单个 的 mbuf， 
但 需要 uiomove 处 理 多 个 mbuf。 
代码 工作 正确 ， 因 为 1ingezr 结 构 的 第 一 个 成 员 是 所 要 求 的 整数 标志 。 


PE CTETUR 每 行 对 应 一 种 查找 键 、 路 由 表 键 和 路 由 表 掩 码 中 比特 的 组 合 方 


-o-oooococo 
Hz DN OD Hz DM NM B2 WI 
oo----ooc 
oo-o-ocooc 
Prom a gdos gq d I 
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] 0 
2 0 
3 1 
4 1 
5 0 
6 0 
7 1 
8 1 


图 A-5 


标注 为 “2 == 4? ”和 标注 为 “6 & 3” 的 两 栏 ， 值 应 相等 。 第 一 眼看 上 去 ， 似 乎 并 
不 完全 相同 ， 但 我 们 可 以 略 过 第 3 行 和 第 7 行 ， 因 为 这 两 行 中 路 由 表 比 特等 于 1， 而 
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在 路 由 表 掩 码 中 的 对 应 比特 也 等 于 1。 构 建 路 由 表 时 ， 键 值 与 掩 码 逻 辑 与 ， 保 证 掩 
码 中 的 等 于 0 每 一 比特 位 ， 键 值 中 的 对 应 比特 位 也 等 于 0。 

可 以 从 另 一 个 角度 理解 图 18-40 中 的 异 或 和 逻辑 与 操作 ， 异 或 结果 等 于 1 的 条 件 是 查 
找 键 比特 不 同 于 路 由 表 键 值 中 对 应 的 比特 位 。 之 后 的 逻辑 与 操作 忽略 所 有 与 掩 码 中 
等 于 0 的 比特 相对 应 的 比特 。 如 果 结 果 依 然 非 零 ， 则 查找 键 与 路 由 表 键 值 不 匹配 。 
rtentry 结 构 的 大 小 等 于 120 字 节 ， 其 中 包括 两 个 radix_node 结 构 。 每 条 记录 还 
要 求 两 个 sockadqar_in 结 构 ( 图 18-28)， 有 152 字 节 。 总 数 约 为 3 兆 字 节 。 

因为 rn_b 是 一 个 短 整数 ， 假 定 短 整 数 占 16 bit， 因 此 ， 每 个 键 值 最 多 有 32767 
bit(4095 字 节 )。 


图 19-15 中 ， 如 果 重 定向 报 文 创建 了 新 的 路 由 ， 将 置 位 RTF_DYNAMIC 标 志 ; 如 果 重 
定向 报 文 修改 了 现 有 路 由 的 网 关 字 段 ， 则 置 位 RTF_MODIFIED 标 志 。 如 果 重 定向 
报 文 新 建 了 一 条 路 由 ， 之 后 另 一 个 重 定向 报 文 又 修改 了 它 ， 则 两 个 标志 都 会 置 位 。 

在 每 个 可 通过 默认 路 由 到 达 的 主机 上 创建 一 条 主机 路 由 。TCP 能 够 对 每 个 主机 维护 
并 更 新 路 由 和 矩阵 (图 27-3)。 

每 个 rt_msghdr 结 构 需 要 76 字 节 。 主 机 路 由 中 包括 还 两 个 sockaddr_in 结 构 ( 目 的 地 
和 网 关 )， 因 此 ， 报 文 息 大 小 为 108 字 节 。 每 条 ARP 记 录 的 报 文 段 为 112 字 节 : 一 个 
sockaddr_in 和 一 个 sockaddr_d1l。 总 长 度 等 于 (15 x 112+20 x 108) 即 3840 字 节 。 
一 条 网 络 路 由 ( 非 主 机 路 由 ) 还 需要 另外 的 8 个 字 节 存放 网 络 掩 码 ( 数 据 大 小 等 于 116 字 
节 ， 而 非 108 字 节 )， 因 此 ， 如 果 20 条 路 由 全 部 为 网 络 路 由 ， 总 长 度 等 于 4000 字 市 。 


返回 值 放 入 报 文 段 的 rtm_errno 成 员 变量 中 (图 20-14)， 同 时 也 做 为 write 的 返回 
值 (图 20-22)。 后 者 更 可 靠 ， 因 为 前 者 可 能 会 因为 mbuf 短 缺 ， 而 丢弃 响应 报 文 段 (图 
20-17)。 

对 SOCK_RAW 型 的 插口 ，pffindproto 函 数 ( 图 7-20) 将 返回 协议 值 等 于 0( 通 配 ) 的 
记录 ， 如 果 没 有 找到 可 匹配 的 记录 。 


它 基 于 假定 ifnet 结 构 位 于 arpcom 的 开头 ， 事 实 也 是 如 此 (图 3-20)。 

发 送 ICMP 的 回 显 请 求 不 需要 ARP， 因 为 目的 地 址 是 广播 地 址 。 但 ICMP 的 回 显 响 应 
一 般 都 是 点 对 点 的 ， 因 此 ， 发 送 者 必须 通过 ARP 确 定 目的 以 太 网 地 址 。 本 地 主机 收 
到 ARP 请 求 时 ，in_arpinput 应 答 并 为 另 一 主机 创建 一 条 记录 。 

如 果 创 建 了 一 条 新 的 ARP 记 录 ， 图 19-8 中 的 rtrequest 从 源 记 录 中 复制 
rt_gateway 值 ， 本 例 中 为 sockaddr_dl 结 构 。 图 21-1 中 ， 我 们 看 到 该 记录 的 
sdl_alen 值 等 于 0。 

Net/3 中 ， 如 果 arpresolve 的 调用 者 提供 了 指向 路 由 表 表 项 的 指针 ， 则 不 会 再 调 
用 arplookup， 通 过 rt_gateway 指 针 可 得 到 所 需 的 以 太 网 地 址 (假定 它 还 末 超 
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时 )。 这 样 可 以 避免 通常 意义 上 的 任何 类 型 的 查询 。 第 22 章 中 ， 我 们 将 看 到 TCP 和 
UDP 在 自己 的 协议 控制 块 中 保存 指向 路 由 表 的 指针 ，TCP 不 再 需要 搜索 路 由 表 ( 连 
接 的 目的 耳 地 址 不 会 变化 )， 在 目的 地 址 不 变 时 UDP 也 不 需 这 样 做 。 

如 果 ARP 记 录 不 完整 ， 则 它 在 记录 创建 后 0~5 分 钟 超时 。arpresolve 发 送 ARP 请 
求 时 ， 令 rt_expire 等 于 当前 时 间 。 下 一 次 执行 arpresolve 时 ， 如 果 记 录 还 没 
有 解析 ， 则 删除 它 。 

ether_output 返 回 EHOSTUNREACH， 而 非 EHOSTDOWN， 从 而 ip_forward 将 
发 送 ICMP 主 机 不 可 达 差 错 报 文 。 

图 21-28 中 ， 为 140.252.13.35 创 建 记 录 时 ， 值 等 于 当前 时 间 。 它 不 会 改变 。 
140.252.13.33 和 140.252.13.34 记 录 的 值 复 制 自 140.252.13.32， 因 为 rtrequest 根 
据 140.252.13.32 复 制 前 两 条 记录 。 之 后 ，arpresolve 发 送 ARP 请 求 时 ， 把 这 两 条 
记录 的 值 更 新 为 当前 时 间 ， 最 后 由 in_arpinput 将 其 更 新 为 收 到 ARP 响 应 的 时 间 
加 上 20 分 钟 。 

修改 图 21-19 开 始 处 的 arplookup， 第 二 个 参数 永远 等 于 1( 创 建 标志 )。 

在 下 一 秒 的 后 半 秒 发 送 第 一 个 数据 报 。 因 此 ， 第 一 个 和 第 二 个 数据 报 都 会 导致 发 送 
ARP 请 求 ， 间 隔 约 为 500 ms， 因 为 内 核 的 time .tv_sec 变 量 在 这 两 个 数据 报 发 送 
时 的 值 不 同 。 


21.10 每 个 待 发 送 的 数据 报 都 是 一 个 mbuf 链 ，m_nextpkt 指 针 指 向 每 个 链 的 第 一 个 
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mbuf， 用 于 构成 等 待 传输 的 mbuf 链 表 。 


无 限 循 环 等 待 某 个 端口 变 为 可 用 ， 假 定 允 许 应 用 进程 打开 足够 多 的 描述 符 ， 绑 定 所 
有 临时 端口 。 


极 少 有 服务 器 支持 此 选项 。[Cheswick 和 Bellovin 1994] 提 到 为 什么 它 可 用 于 实现 防 


火 墙 系统 。 

udb 结 构 初始 化 为 0， 因 此 ，uab . inp_1port 从 0 开始 。 第 一 次 调用 ip_pcbbin 
时 ， 它 增加 为 1， 因 为 小 于 1024， 所 以 被 设 定 为 1024。 

一 般 情况 下 ， 调 用 者 把 地 址 族 (sa_fami1y) 设 为 AF_INET， 但 我 们 在 图 22-20 的 注 
释 中 看 到 ， 最 好 不 进行 关于 地 址 族 的 测试 。 调 用 者 设 定 长 度 变量 (sa_len)， 但 我 
们 在 图 15-20 中 看 到 ， 函 数 sockargs 将 其 做 为 bind 的 第 3 个 参数 ， 对 于 . 
sockaddr_in 结 构 ， 应 等 于 16， 通 常 都 使 用 C 的 sizeof 操 作 符 。 

本 地 IP 地 址 (sin_addzr) 可 以 指明 为 通 配 地 址 或 某 个 本 地 IP 地 址 。 本 地 端口 号 
(sin_port)， 可 以 等 于 0( 告 诉 内 核 选 择 一 个 临时 端口 ) 或 非 0， 如 果 应 用 进程 希 
望 指明 端口 号 。 通 常情 况 下 ，TCP 或 UDP 服务 器 指明 一 个 通 配 IP 地 址 ， 端 口号 等 
于 0。 

应 用 进程 可 以 bingd 一 个 本 地 广播 地 址 ， 因 为 fa_ifwithadar( 图 22-22) 的 调用 成 
功 。 它 被 用 做 在 该 插口 上 发 送 的 IP 数 据 报 的 源 地 址 。C.2 节 中 指出 ，RFC 1122 不 允 
许 这 种 做 法 。 但 试图 绑 定 255.255.255.255 时 会 失败 ， 因 为 1fa_ifwithadar 不 接 
受 该 地 址 。 
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sosend 把 用 户 数 据 放 入 单个 的 mbuf 中 ， 如 果 其 长 度 小 于 等 于 100 字 节 ; 放 入 两 个 
mbuf 中 ， 如 果 长 度 小 于 等 于 207 字 节 ; 否则 ， 放 入 多 个 mbuf 中 ， 每 个 都 带 有 一 个 簇 。 
此 外 ， 如 果 长 度 小 于 100 字 节 ，sosendq 调 用 MH_ALIGN， 和 希望 能 在 mbuf 起 始 处 为 
协议 首部 保留 空间 。 因为 udap_output 调 用 M_PREPEND, 下 述 5 种 情况 都 是 可 能 的 : 
(1) 如 果 用 户 数据 长 度 小 于 等 于 72 字 节 ， 一 个 mbuf 就 可 以 存放 IP 首 部 、UDP 首 部 和 
数据 ; (2) 如 果 长 度 位 于 73 字 节 和 100 字 节 之 间 ，soesendg 为 用 户 数据 分 配 一 个 mbuf， 
M_PERPEND 为 IP 和 TCP 首 部 再 分 配 一 个 mbuf; (3) 如 果 长 度 位 于 101 字 节 和 207 字 节 
之 间 ，sosend 为 用 户 数据 分 配 两 个 nbuf，M_PREPEND 为 IP 和 TCP 首 部 再 分 配 一 个 
mbuf; (4) 如 果 长 度 位 于 208 字 节 和 MCLBYTES 之 间 ，sosendg 为 用 户 数据 分 配 一 个 
带 铸 的 mbuf，M_PERPEND 为 IP 和 TCP 首 部 再 分 配 一 个 mbuf; (5) 如 果 长 度 超出 ， 则 
sosend 分 配 足 够 多 的 mbuf 和 灸 ， 以 存放 数据 (最 大 数据 长 度 65507 宇 节 ， 需 分 配 64 
个 带 1024 字 节 复 的 mbuf)，M_PERPEND 为 IP 和 TCP 首 部 再 分 配 一 个 mbuf。 

IP 选 项 提交 给 ijp_output， 后 者 调用 ip_insertoptions 在 输出 IP 数 据 报 中 插入 
IP 选 项 。 它 接着 分 配 一 个 新 的 mbuf， 存 放 带 有 了 选项 的 耻 首 部 ， 如 果 第 一 个 mbuf 指 
向 一 个 簇 (UDP 输 出 不 可 能 出 现 这 种 情况 )， 或 者 第 一 个 mbuf 中 没有 足够 的 剩余 空间 
存放 新 增 选项 。 上 个 习题 中 给 出 的 第 一 种 情况 中 ， 选 项 大 小 将 决定 
ip_insertoptions 是 否 分 配 另 一 个 mbuf: 如 果 用 户 数 据 长 度 小 于 100-28-optien 
(IP 选 项 占用 的 字 节 数 )， 说 明 mbuf 足 够 存放 IP 首 部 、IP 选 项 、UDP 首 部 和 数据 。 
第 2、3、4 和 5 种 情况 中 ， 第 一 个 mbuf 都 由 M_PREPEND 分 配 ， 只 存放 IP 和 UDP 首部 。 
M_PREPEND 调 用 M_PREPEND， 接 着 调用 MH_ALIGN， 把 28 字 节 的 首部 移 到 mbuf 
尾部 ， 因 此 ， 第 一 个 mbuf 中 必定 有 空间 存放 最 大 为 40 字 节 的 下 选 项 。 

不 。 函数 in_pcbconnect 只 有 在 应 用 程序 调用 connect， 或 者 在 一 个 未 连接 的 
UDP 插 口上 发 送 第 一 个 数据 报时 ， 才 会 被 调用 。 因 为 本 地 地 址 是 通 配 地 址 ， 本 地 端 
口号 等 于 0， 所 以 in_pcbconnect 给 本 地 端口 号 赋 一 个 临时 端口 (通过 调用 
in_pcbbind)， 并 根据 到 达 目 的 地 的 路 由 设 定 本 地 地 址 。 l 

处 理 器 优选 级 仍 为 splnet 不 变 ， 没 有 还 原 为 初始 值 ， 这 是 代码 的 一 个 差错 。 

不 。in_pcbconnect 不 允许 与 等 于 0 的 端口 建立 连接 。 即 使 应 用 进程 没有 直接 调 
用 connect， 也 会 间接 地 执行 connect， 因 此 ，in_pcbconnect 总 会 被 调用 。 
应 用 程序 必须 调用 ioct1， 命 令 为 SIOCGIFCONF， 返 回 所 有 已 配置 的 IP 接 口 信息 。 
之 后 ， 在 ioct1 返 回 的 所 有 IP 地 址 和 广播 地 址 中 寻找 接收 数据 报 中 的 目的 地 址 (也 
可 不 用 ioct1，19.14 节 中 介绍 的 sysct1 系 统 调 用 也 能 够 返回 所 有 配置 接口 的 信 
&). 

recvit 释 放 带 有 控制 信息 的 mbuf。 

为 了 断 开 一 个 已 建立 连接 的 UDP 插 口 ， 调 用 connect， 传 递 一 个 无 效 的 地 址 参数 ， 
如 0.0.0.0， 端 口号 等 于 0。 因 为 插口 已 经 建立 了 连接 ，soconnect 调 用 
sodisconnect， 后 者 调用 udp_usrreq,， 发 送 PRU_DISCONNECT 请 求 ， 令 远 端 
地 址 等 于 0.0.0.0， 远 端 端 口号 等 于 0。 这 样 ， 接 下 来 调用 sendto 时 可 以 指明 目的 地 
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址 。 由 于 指明 地 址 无 效 ，sodisconnect 发 送 的 PRU_CONNECT 请 求 失败 。 实 际 上 ， 
我 们 不 希望 connect 成 功 ， 只 是 要 执行 PRU_DISCONNECT 请 求 ， 而 且 通 过 
connect 来 执行 这 一 请 求 的 做 法 是 唯一 可 行 的 方案 ， 因 为 插口 API 没 有 提供 
disconnect. 

手册 中 关于 connect(2) 的 描述 通常 包括 下 述说 明 : “可 通过 把 数据 报 插口 连接 到 一 
个 无 效 地 址 ， 如 空地 址 ， 来 断 开 其 当前 连接 。” 但 没有 明确 指出 调用 connect 时 ， 
如 果 传 送 的 地 址 无 效 ， 会 返回 一 个 差错 。“ 空 地址 ”的 含义 也 易 造 成 混淆 ， 它 指 IP 
地 址 0.0.0.0， 而 非 bingd 的 第 二 个 参数 的 空 指针 。 

因为 jn_pcbbind 能 够 建 并 UDP 插口 与 远 端 IP 地 址 间 的 临时 连接 ， 情 况 与 应 用 进程 
调用 connect 类 似 : 如 果菜 接口 的 目的 IP 地 址 与 该 接口 的 广播 地 址 对 应 ， 则 从 该 接 
口 发 送 数 据 报 。 


23.10 服务 器 必须 设 定 IP_RECVDSTRADDR 揪 口 选 项 ， 并 调用 recvmsg 从 客户 请 求 中 获 


取 目 的 耻 地 址 。 为 了 成 为 响应 报 文 段 中 的 源 地 址 ， 必 须 将 其 绑 定 在 播 口 上 .由 于 
一 个 插口 只 能 bind 一 次 ， 服 务 器 每 次 响应 时 都 必须 创建 新 的 插口 。 


23.11 注意 ，ip_output( 图 8-22) 中 ，IP 不 修改 调用 者 传递 的 DF 比特 。 需 要 定义 新 的 插 
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口 选项 ， 促 使 Wp_output 在 把 数据 报 传递 给 全 之 前 ， 设 定 DF 比特 。 
不 。 它 只 被 Ldp_input 使 用 ， 且 应 为 该 函数 的 局 部 变量 。 


状态 为 ESTABLISHED 的 连接 总 数 为 126 820。 除 以 发 送 和 接收 的 总 字 节 数 ， 得 到 每 
个 方向 上 的 平均 字 节 数 ， 约 为 30 000 字 节 。 

tcp_output 中 ,保存 IP 和 TCP 首 部 的 mbuf 还 有 空间 容纳 链 路 层 首部 
(max_linkhdar)。 试 图 通过 bcopy 把 耻 和 TCP 首 部 原型 复制 到 mbuf 中 是 行 不 通 的 ， 
因为 有 可 能 会 把 40 字 节 的 首部 分 散在 两 个 mbuf 中 。 尽 管 40 字 节 的 首部 必须 放 入 单个 
mbuf 中 ， 但 链 路 层 首 部 不 存在 这 样 的 限制 。 不 过 这 样 做 会 降低 性 能 ， 因 为 后 续 处 理 
不 得 不 为 链 路 层 首 部 再 次 分 配 mbuf。 

在 作者 的 bsdi 系统 中 ， 计 数 器 等 于 16， 其 中 15 个 是 标准 系统 守护 程序 (Telnet、 
Rlogin、FTP， 等 等 )。 而 vangogh .cs.berkeley.edu 系 统 ， 一 个 约 有 20 个 用 户 
的 中 等 规模 的 多 用 户 系统 ， 计 数 器 约 为 60。 对 于 大 型 的 带 有 150 个 用 户 的 多 用 户 系 
统 (world.stq.com)， 则 有 417 个 TCP 端 点 和 809 个 UDP 端 点 。 


图 24-5 中 ，2 592 000 秒 (30 天) 中 出 现 了 531 285 次 延迟 ACK,， 平均 每 5 秒 钟 有 一 次 延 
迟 ACK， 或 者 说 每 25 次 调用 tcp_fasttimo， 才 会 有 一 次 延迟 ACK。 这 说 明 在 代 
码 检查 所 有 TCP 控 制 块 ， 判 定 延 迟 ACK 标 志 是 否 置 位 时 ，96%(25 次 中 有 24 次 ) 的 时 
间 都 未 置 位 。 对 于 习题 24.3 中 给 出 的 大 型 的 多 用 户 系 统 ， 意 味 着 需 查看 超过 400 个 
的 TCP 控 制 块 ， 每 秒 钟 查询 5 次 。 

另 一 种 解决 方案 是 ， 在 需要 延迟 ACK 时 ， 设 定 全 局 标志 。 只 有 当 全 局 标志 置 位 时 ， 
才 检 查 控制 块 列表 。 或 者 为 需要 延迟 ACK 的 控制 块 单独 建立 并 维护 一 个 列表 。 例 如 ， 
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图 13-14 中 的 变量 1gmp_timers_are_running。 
这 样 使 得 变量 tcp_keepintv1L 绑 定 在 运行 中 的 内 核 上 ， 下 次 调用 
tcp_slowtimo 时 ， 内 核 可 以 改变 Ecp_maxidle 的 值 。 
t_idie 中 保存 的 实际 上 是 从 最 后 一 次 接收 或 发 送 报 文 段 后 算 起 的 时 间 。 因 为 TCP 
的 输出 必须 被 对 端 确认 ， 与 收 到 数据 报 文 段 相 同 ， 收 到 ACK 也 将 清 零 t_idle。 
图 A-6 给 出 代码 的 一 种 可 能 的 重 写 方式 。 
case TCPT_2MSL: 
if (tp-»t state == TCPS, TIME WAIT) 
tp - tcp close(tp); 
else ( 
if (tp-»t idle «- tcp maxidle) 
tp-»t timer(TCPT 2MSL] = tcp keepintvl1; 
else 
tp = tcp.close(tp); 


) 
break; 


图 A-6 


如 果 收 到 了 重复 的 ACK，t_idle 等 于 150， 但 被 复位 为 0。FIN_WAIT_2 时 钟 超时 
后 ，t_idle 将 等 于 1048 (1198-150)， 因 此 ， 定 时 器 被 设 定 为 150 个 滴答 。 定 时 器 
再 次 超时 ，t_idle 应 等 于 1198+150， 导 致 连接 被 关闭 。 重 复 ACK 令 时 间 延 长 ， 直 
到 连接 被 关闭 。 

第 一 次 连接 探测 报 文 段 将 在 1 小 时 后 发 送 。 应 用 进程 设 定 该 选项 时 ， 实 际 只 置 位 了 
socket 结 构 中 的 SO_KEEPALIVE 选 项 。 由 于 设 定 了 该 选项 ， 定 时 器 将 于 1 小 时 后 
超时 ， 图 25-15 中 的 代码 将 发 送 第 一 次 连接 探测 报 文 段 。 
tcp_rttdflt 用 于 为 每 条 TCP 连 接 初始 化 RTT 估 计 器 的 值 。 如 果 需 要 ， 主 机 可 通 
过 更 改 全 局 变量 ， 改 变 默 认 设 置 。 如 果 通 过 #define 将 其 定义 为 常量 ， 则 只 有 通过 重 
新 编译 内 核 文件 才能 改变 默认 值 。 


事实 上 ，TCP 并 没有 刻意 计算 从 连接 上 最 后 一 次 发 送 报 文 段 算 起 的 时 间 ， 因 为 连接 
上 的 计时 器 t_iqle 一 直 在 起 作用 。 

图 25-26 中 ， snd_nxt 被 设 定 为 snd_una,， len 等 于 0。 

如 果 运 行 Net/3 系 统 ， 但 对 端 主 机 却 无 法 处 理 某 个 新 选项 (例如 ， 对 端 拒绝 建立 连接 ， 
即使 被 要 求 忽略 无 靶 辨 识 的 选项 )。 遇 到 这 种 情况 时 ， 通 过 在 内 核 中 改变 这 个 全 局 
变量 的 值 ， 可 以 禁止 某 一 个 或 两 个 选项 。 

时 间 戳 选项 能 够 在 每 次 收 到 对 新 数据 的 ACK 了 时， 更 新 RTT 估 计 器 值 。 因 此 ， 使 用 时 
间 惟 选项 后 ，RTT 估 计 器 值 将 被 更 新 16 次 ， 是 不 使 用 该 选项 时 更 新 次 数 的 两 倍 。 注 
意 ， 在 时 刻 217.944 时 ， 收 到 了 对 6145 的 ACK，RTT 估 计 器 值 被 更 新 ， 但 这 个 新 的 
计算 值 并 不 准确 -一 或 者 是 在 时 刻 3.740 发 送 的 携带 5633~6144 字 节 的 数据 段 ， 或 者 
是 收 到 的 对 6145 的 ACK， 在 网 络 中 延迟 了 200 秒 。 

这 种 存储 器 引用 时 ， 无 法 确保 2 字 节 的 MSS 值 能 够 正确 地 对 齐 。 
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(该 解决 方案 来 自 于 Dave Borman) 一 个 数据 段 能 够 携带 的 TCP 数 据 量 的 最 大 值 为 
65495 字 节 ， 即 6$S535 减 去 耻 和 TCP 首 部 的 最 小 值 (40)。 因 此 ， 紧 急 数据 偏 移 量 可 取 
值 范围 中 有 39 个 值 是 无 意义 的 : 65496~65535， 包 括 65535。 无 论 何 时 ， 只 要 发 送 
方 得 到 一 个 超过 65495 的 紧急 数据 偏 移 量 ， 则 将 其 替换 为 6553$， 并 置 位 URG 标 志 。 
从 而 迫使 接收 方 进 入 紧急 模式 ， 并 告知 接收 方 紧急 数据 偏 移 量 所 指向 的 数据 尚未 被 
发 送 。 发 送 方 将 持续 发 送 紧 急 数据 偏 移 量 等 于 65535、 且 URG 标 志 置 位 的 数据 报 文 
段 ， 直 到 紧急 数据 偏 移 量 小 于 等 于 65495， 说 明 真 正 的 紧急 数据 偏 移 量 的 开始 。 
我 们 提 到 ， 数 据 段 的 传输 是 可 靠 的 ( 重 传 机 制 )， 而 ACK 则 有 可 能 丢失 。RST 报 文 段 
的 传输 同样 也 是 不 可 靠 的 。 如 果 连 接 上 收 到 了 一 个 假 报 文 段 (例如 ， 不 属于 本 连接 
的 报 文 段 ， 或 者 一 个 不 属于 任何 连接 的 报 文 段 )， 则 传送 RST 报 文 段 。 如 果 RST 报 文 
段 被 ip_output 于 弃 ， 当 对 端 重 传导 致 发 送 RST 报 文 段 的 数据 报 文 段 时 ， 将 再 次 
生成 RST 报 文 段 。 

应 用 程序 执行 了 8 次 写 入 1024 字 节 的 操作 。 头 4 次 调用 sosend 时 ，tcp_output 被 
调用 ， 报 文 段 被 发 送 。 因 为 这 4 个 报 文 段 都 包含 了 发 送 缓存 中 最 后 一 个 字 节 的 数据 ， 
每 个 报 文 段 的 PSH 标 志 都 置 位 (图 26-25)。 第 二 个 缓存 装 满 后 ， 应 用 进程 进行 下 一 次 
写 操 作 ， 调 用 sosend 时 被 挂 起 。 收 到 对 端 通告 窗口 大 小 等 于 0 的 ACK 后 ， 丢 弃 发 
送 缓 存 中 已 被 确认 的 4096 字 节 的 数据 ， 应 用 进程 被 唤醒 ， 又 连续 执行 了 4 次 写 操 作 ， 
发 送 缓存 再 次 被 填 满 。 但 只 有 当 接 收 方 通告 窗口 大 小 不 等 于 0 时 ， 才 能 继续 发 送 数 
据 。 条 件 请 足 时 ， 接 下 来 的 4 个 报 文 段 被 发 送 ， 但 只 有 最 后 一 个 报 文 段 的 PSH 标 志 
置 位 ， 因 为 前 3 个 报 文 段 并 未 清空 发 送 缓存 。 . 
如 果 正 在 发 送 的 报 文 段 不 属于 任何 连接 ， 传 给 tcp_respond 的 tp 参数 可 以 是 空 指 
针 。 代 码 只 有 在 指针 为 空 时 ， 才 会 查看 tp， 并 代 之 以 默认 值 。 
tcp_output 通 常 调用 MGETHDR， 分 配 一 个 仅 能 容纳 IP 和 和 TCP 首部 的 mbuf， 参 见 
图 26-25 和 图 26-26。 在 新 的 mbuf 的 前 部 ， 代 码 只 预 留 了 链 路 层 首部 
(max_1linkhdr) 大 小 的 空间 。 如 果 使 用 了 IP 选 项 ， 而 且 选 项 的 大 小 超过 了 
max_linkhdr，ip_insertoptions 会 自动 分 配 另 一 个 mbuf。 但 如 果 下 选项 的 
大 小 小 于 等 于 max_linkhdr, 则 ip_insertoptions 也 会 占用 mbuf 首 部 的 空间 ， 
从 而 导致 ether_output 仅 为 链 路 层 首部 分 配 男 一 个 mbuf( 假 定 以 太 网 输出 )。 

为 了 避免 多 余 的 mbuf， 图 26-25 和 图 26-26 中 的 代码 ， 可 以 在 报 文 段 中 携带 IP 选 项 时 
调用 MH_ALIGN。 

约 有 80 行 代码 ， 假 定 采用 了 RFC 1323 中 的 时 间 截 选项 ， 且 报 文 段 被 计时 。 

安 MGETHDR 调 用 了 宏 MALLOC， 后 者 可 能 调用 函数 malloc。 函 数 m_copy 也 会 
被 调用 ， 但 一 个 完整 大 小 的 报 文 段 可 能 需要 一 个 徐 ， 因 此 ， 不 复制 mpuf， 而 是 保 
存 一 个 对 签 的 引用 。m_copy 中 调用 MGET， 可 能 会 导致 对 mal11loc 的 调用 。 函 数 
bcopy 复 制 模板 ， 而 in_cksum 计 算 TCP 的 检验 和 。 

调用 writev 没 有 区 别 ， 因 为 处 理 逻 辑 由 sosend 实 现 。 因 为 数据 大 小 等 于 150 字 
节 ， 小 于 MINCLSIZE (208)， 所 以 为 头 100 个 字 节 分 配 了 一 个 mbuf。 并 且 因为 协 
议 支持 数据 的 分 段 ，PRU_SEND 请 求 被 发 送 。 接 着 为 剩余 的 50 字 节 再 分 配 一 个 
mbuf， 并 发 送 相 应 的 PRU_SEND 请 求 ( 对 于 PR_ATOMIC 协 议 ， 如 UDP，writev 只 
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生成 一 条 “记录 ， 即 只 发 送 一 个 PRU_SEND 请 求 。) 
如 果 两 个 缓存 的 长 度 分 别 等 于 200 和 300，、 总 长 度 超 过 了 MINCLSIZE， 则 分 配 一 个 
mbuff&, H HAi*-—jUKPRU SENDizK. TCP HUE ji —^4 5007 T5 B TR XC BE 


表 中 前 6 行 记 录 的 差错 ， 都 是 由 于 接收 报 文 段 或 者 定时 器 超时 引起 的 异步 差错 。 通 
过 在 so_error 中 保存 非 零 的 差错 代码 ， 应 用 进程 能 够 在 下 一 次 读 / 写 操作 中 收 到 差 
错 信 息 。 但 如 果 调 用 来 自 tLcp_disconnect， 说明 应 用 进程 调用 了 close， 或 者 
应 用 进程 终止 时 系统 自动 关闭 其 所 拥有 的 描述 符 。 无 论 是 哪 一 种 情况 ， 描 述 符 被 关 
闭 ， 应 用 进程 不 可 能 再 通过 读 / 写 操作 来 获取 差错 代码 。 此 外 ， 因 为 应 用 进程 必须 
明确 设 定 插口 选项 ， 强 迫 RST 置 位 ， 此 时 返回 一 个 差错 代码 并 不 能 向 应 用 进程 提供 
有 用 的 信息 。 

假定 它 是 32 bit 的 u_long， 最 大 值 小 于 4298 秒 (1.2 小 时 )。 

路 由 表 中 的 统计 数据 由 tcp_close 更 新 ， 但 只 有 当 连 接 进 入 CLOSED 状 态 时 ， 它 才 
会 被 调用 。 因 为 FTP 客 户 终 止 向 对 端 发 送 数据 (执行 主动 关闭 )， 本 地 连接 端点 进入 
TIME_WAIT 状 态 。 必 须 经 过 2MSL 后 ， 路 由 表 统 计 值 才 会 被 更 新 。 


0、1、2 和 3。 

34.9Mb/s。 对 于 更 高 的 速率 ， 连 接 两 端 需要 更 大 的 缓存 。 

通常 ，tcp_dooption 不 知道 两 个 时 间 戳 值 是 否 按 32 bit 边 界 对 齐 。 图 28-4 中 的 代 
码 ， 在 指定 情况 下 ， 能 够 确认 时 间 戳 值 按 32 bit 边 界 对 齐 ， 从 而 避免 调用 bcopy。 
图 28-4 中 实现 “选项 预测 ”代码 ， 只 能 处 理 系统 推荐 的 格式 。 如 果 连 接 对 端 未 采用 
系统 推荐 的 格式 ， 会 导致 为 每 个 接收 到 的 报 文 段 调 用 tcp_dooptions， 降 低 了 处 
MRE. 

如 果 在 每 次 创建 插口 时 ， 而 非 每 次 连接 建立 时 ， 调 用 tcp_template， 则 系统 中 
的 每 个 监听 服务 器 都 会 拥有 一 个 cp_tempLacte， 而 该 结构 可 能 永远 不 会 被 使 用 。 
时 间 长 时钟 频率 应 该 在 1 b/ms 和 1 b/s 之 闻 (NetW3 采 用 了 2 b/s)。 如 果 采 用 最 高 的 时 钟 频 
率 1 b/ms, 32 bit 的 时 间 莪 将 在 2’/ (24 x 60 x 60 x 1000) 天 ， 即 24.8 天 后 发 生 符 号 位 回 绕 。 
如 果 频 率 为 每 500 ms 1 bit, 32 bit 的 时 间 惟 将 在 2 / (24 x 60 x 60 x 2) 天 ， 即 12 427 
天 ， 约 34 年 后 才 会 出 现 符号 位 回 绕 。 

对 RST 报 文 段 的 处 理应 优先 于 时 间 改 ， 而 且 ，RST 报 文 段 中 最 好 不 携带 时 间 戳 选项 
(图 26-24 中 的 tcp_input 代 码 确保 了 这 一 点 )。 

因为 客户 端 状态 为 ESTABLISHED， 处 理 将 在 图 28-24 的 代码 处 结束 。todrop 等 于 
1， 因 为 rcv_nxt 在 收 到 第 一 个 SYN 时 已 递增 过 。SYN 标 志 被 清除 (因为 这 是 一 个 重 
复 报 文 段 )，ti_seq 递 增 ，todrop 减 为 0。 因 为 LoGrop 和 ti_len 都 等 于 0， 执行 
图 28-25 起 始 处 的 和 f 语 句 ， 并 跳 过 下 一 个 站 语句 ， 直 接 调用 m_adj。 但 下 一 章 中 介绍 
tcp_input 后 续 代 码 时 ， 将 谈 到 在 某 些 情 况 下 不 会 调用 cp_output， 本 题 即 是 一 例 。 
因此 ， 客 户 端 会 不 响应 重复 的 SYNVACK。 服 务 器 端 超时 后 ， 再 次 发 送 SYN/ACK 
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(图 28-17 中 介绍 了 某 个 被 动 打开 的 插口 收 到 SYN 时 ， 定 时 器 的 设置 )， 这 个 重 发 的 
SYN/ACK 报 文 段 同 样 被 忽略 。 我 们 现在 讨论 的 其 实 是 图 28-25 代 码 中 的 另 一 个 差错 ， 
图 28-30 中 给 出 的 代码 同样 也 纠正 了 这 一 差错 。 


28.40 客户 发 出 的 SYN 到 达 服 务 器 ， 并 被 交 给 处 于 TIME_WAIT 状 态 的 插口 。 图 28-24 中 
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的 代码 关闭 SYN 标 志 ， 图 28-25 中 的 代码 跳 转 至 dropafterack， 丢 弃 该 报 文 段 ， 
但 生成 一 个 ACK， 确 认 字 段 等 于 rcv_nxt( 图 26-27)。 它 被 称 作 “再 同步 
(resynchronization ACK” 报 文 段 ， 因 为 其 目的 是 告诉 对 端 本 地 希望 接收 的 下 一 序 
号 。 客 户 端 收 到 此 ACK 后 (客户 处 于 SYN_SENT 状 态 )， 发 现 它 的 确认 字段 所 携带 
的 序号 不 等 于 自己 期 待 得 到 的 序号 后 (图 28-18)， 向 服务 器 发 送 RST 报 文 段 。RST 
报 文 段 的 ACK 标 志 被 清除 ， 且 序号 等 于 再 同步 ACK 报 文 段 中 确认 字段 携带 的 序号 
(图 29-28)。 服 务 器 收 到 此 RST 报 文 段 后 ， 其 TIME_WAIT 状 态 提 前 终止 ， 相 应 播 口 
被 关闭 (图 28-36)。 客 户 端 6 秒 钟 后 超时 ， 重 传 SYN 报 文 段 。 假 定 监听 服务 器 进程 在 
服务 器 主机 上 运转 正常 ， 新 的 连接 将 建立 。 由 于 TIME_WAIT 状 态 的 这 种 防护 作用 ， 
新 连接 建立 时 ， 下 一 个 SYN 报 文 段 携带 的 序号 既 可 以 高 于 前 一 连接 上 最 后 收 到 的 
序号 (图 28-28 中 的 测试 )， 也 可 以 低 于 该 序号 。 


假定 RTT 等 于 2 秒 钟 。 服 务 器 被 动 打 开 ， 客 户 端 在 时 刻 0 主 动 打开 。 服 务 器 在 时 刻 1 
收 到 客户 发 出 的 SYN， 并 作出 响应 ， 发 送 自己 的 SYN 和 对 客户 SYN 的 ACK。 客 户 端 
在 时 刻 2 收 到 报 务 器 的 响应 报 文 段 ， 图 28-20 中 的 代码 调用 soisconnected( 唤 醒 
客户 进程 )， 完 成 主动 打开 过 程 ， 并 向 服务 器 发 送 ACK 响 应 。 服 务 器 在 时 刻 3 收 到 客 
户 的 ACK， 图 29-2 中 的 代码 完成 服务 器 端的 被 动 打 开 过 程 ， 控 制 返回 给 服务 器 进程 。 
一 般 情况 下 ， 客 户 进程 比 服务 器 进程 提早 1/2 RTT 时 间 得 到 控制 。 

假定 SYN 的 序号 等 于 1000，50 字 节 数 据 的 序号 等 于 1001~1050。tcp_input 处 理 此 
SYN 报 文 段 时 ， 首 先 执行 图 28-15 中 的 起 始 case 语 句 ， 令 rcv_nxt 等 于 1001， 接 着 跳 到 
step6。 图 29-22 中 的 代码 调用 cp_reass， 把 数据 放 入 插口 的 重组 队列 中 。 但 数据 还 不 
能 放 入 插口 的 接收 缓存 (图 27-23)， 因 此 ，rcv_nxt 还 是 等 于 1001。 在 调用 
tcp_output 生 成 ACK 响 应 时 ，rcv_nxt (1001) 被 放 人 ACK 报 文 段 的 确认 字段 。 也 
说 是 说 ，SYN 被 确认 ， 但 与 之 同时 到 达 的 50 字 节 的 数据 没有 被 确认 。 因 此 ， 客 户 端 不 
得 不 重 发 50 字 节 的 数据 ， 所 以 ， 在 完成 主动 打开 的 SYN 报 文 段 中 携带 数据 是 没有 意义 
的 。 
客户 端的 ACK/FIN 报 文 段 到 达 时 ， 服 务 器 处 于 SYN_RCVD 状 态 ， 因 此 ， 图 29-2 中 
的 tcp__input 代 码 将 结束 对 ACK 的 处 理 。 连 接 转移 到 ESTABLISHED 状 态 , 
tcp_reass 把 已 在 重组 队列 中 的 数据 放 入 接收 缓存 ，rcv_nxt 递 增 为 1051。 
tcp_input 继 续 执行 ， 图 29-24 中 的 代码 负责 处 理 FIN 标 志 ， 此 时 TF_ACKNOW 标 志 
置 位 ，rcv_nxt 等 于 1052。socantrcvmove 设 定 插口 的 状态 ， 使 服务 器 在 读 取 
50 字 节 的 数据 之 后 ， 得 到 “文件 结束 ”指示 。 服 务 器 的 插口 也 转移 到 
CLOSE_WAIT 状 态 。 调 用 tcp_output， 了 确认 客户 端的 FIN( 因 为 cv_nxt 等 于 
1052)。 假 定 服务 器 进程 在 收 到 “文件 结束 ”指示 后 ， 关 闭 其 插口 ， 服 务 器 也 将 向 
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客户 发 送 FIN， 并 等 待 回 应 。 

在 这 个 例子 中 ， 这 了 从 客户 端 向 服务 器 传送 50 字 节 的 数据 ， 双 方 需 3 个 来 回 ， 共 发 送 6 
个 报 文 段 。 为 了 减少 所 需 的 报 文 段 数 ， 应 采用 “用 于 交易 的 TCP 扩 展 [Braden 1994]”。 
收 到 服务 器 响应 时 ， 客 户 插口 处 于 SYN_SENT 状 态 。 图 28-20 中 的 代码 处 理 该 报 文 
段 ， 连 接 转移 到 ESTABLISHED 状 态 ， 控 制 跳 转 到 step56， 由 图 29-22 中 的 代码 继续 
处 理 数 据 。TCP_REASS 把 数据 添加 到 插口 的 接收 缓存 ， 并 递增 rcv_nxt。 之 后 ， 
图 29-24 中 的 代码 开始 处 理 FIN， 再 次 递增 zcv_nxt， 连 接 转移 到 CLOSE_WAIT 状 
态 。 在 调用 tcpb_output 时 ，zrcv_nxt 同 时 确认 了 SYN、50 字 节 的 数据 和 FIN。 随 
后 的 客户 进程 首先 读 取 50 字 节 的 数据 ， 接 着 是 “文件 结束 ”指示 ， 并 可 能 关闭 其 插 
口 。 客 户 端 连接 进入 LAST_ACK 状 态 ， 向 服务 器 发 送 FIN 报 文 段 ， 并 等 待 其 响应 报 
文 段 。 

问题 出 在 图 24-16 中 的 tcp_outflags [TCPS_CLOSING]。 它 设 定 了 TH_FIN 标 志 ， 
而 状态 变迁 图 (图 24-15) 并 未 规定 FIN 应 被 重 传 。 解 决 问题 的 方法 是 ， 从 该 状态 的 
tcp_outflags 中 除去 TH_FIN 标 志 。 这 个 问题 没有 什么 危害 一 一 只 不 过 多 交换 两 
个 报 文 段 一 一 而 且 同 时 关闭 或 者 在 关闭 后 紧 接着 自 连 接 的 情况 是 非常 罕见 的 。 
没有 。 系 统 调 用 write 返回 OK， 只 说 明 数 据 已 复制 到 插口 的 缓存 中 。 在 数据 得 到 
对 端 确认 时 ，Net/3 不 再 通知 应 用 进程 。 如 果 需 要 得 到 此 类 信息 ， 应 设计 并 实现 应 
用 级 的 确认 机 制 。 

RFC 1323 的 时 间 堆 选项， 造成 “首部 压缩 ”失效 。 因 为 只 要 时 间 惟 变化 ， 即 TCP 选 
项 发 生 了 改变 ， 报 文 自 发送 时 就 不 会 被 压缩 。 窗 口 大 小 选项 无 效 ， 因 为 TCP 首 部 中 
值 的 长 度 仍 为 16 bit。 

IP 中 ID 字 段 的 取 值 来 自 一 个 全 局 变量 ， 只 要 发 送 一 个 IP 数 据 报 ， 该 变量 递增 一 次 。 
这 种 方式 导致 在 同一 TCP 连 接 上 两 个 连续 TCP 报 文 段 间 的 ID 差 值 大 于 1 的 可 能 性 大 
大 增加 。 一 旦 ID 差 值 大 于 1， 图 29-34 中 的 Aipid 字 段 将 被 发 送 ， 增 大 了 压缩 首部 的 大 
小 。 一 个 更 好 的 解决 方案 是 ，TCP 自 己 维护 一 个 计数 器 ， 用 于 ID 的 赋值 。 


是 的 ， 仍 会 发 送 RST 报 文 段 。 应 用 进程 终止 的 处 理 中 包括 关闭 它 打 开 的 所 有 描述 符 。 
同一 个 函数 (soclose) 最 终 会 被 调用 ， 无 论 是 应 用 进程 明确 地 关闭 了 插口 描述 符 ， 
还 是 隐 含 地 进行 了 关闭 (首先 被 终止 )。 

不 。 这 个 常量 只 有 在 监听 插口 设 定 S0_LINGER 选 项 ， 且 延迟 时 间 等 于 0 时 ， 才 会 被 
用 到 。 正 常情 况 下 ， 插 口 选项 的 这 种 设 定 方式 会 导致 在 连接 关闭 时 发 送 RST 报 文 段 
(图 30-12)， 但 图 30-2 中 对 于 接收 连接 请 求 的 监听 插口 ， 把 该 值 从 0 改 为 120( 滴 管 )。 
如 果 这 是 第 一 次 使 用 默认 路 由 ， 则 为 两 次 ; 否则 为 一 次 。 当 创建 插口 时 ， 
in_pcballoc 将 Internet PCB 置 为 0， 从 而 将 PCB 结 构 中 的 route 结 构 设 为 0。 发 送 
第 一 个 报 文 段 (SYN) 时 ，tcp_output 调 用 ip_output。 因 为 ro_rt 指 针 为 空 ， 
因此 向 ro_dst 填 充 IP 数 据 报 的 目的 地 址 ， 并 调用 rtalloc。 在 该 连接 的 PCB 中 ， 
route 结 构 的 ro_rt 变 量 中 保存 默认 路 由 。 当 ip_output 调 用 ether_output 时 ， 
后 者 检查 路 由 表 中 的 rt_gwroute 变 量 是 否 汶 空 。 如 果 是 ， 则 调用 rtalloc1。 假 
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定 路 由 没有 改变 ， 该 连接 每 次 调用 tcp_output 时 ， 都 会 使 用 保存 的 ro_rt 指 针 ， 
以 避免 多 余 的 路 由 表 查 询 。 


因为 在 bpf_wakeup 调 用 唤醒 任何 沉睡 进程 之 前 ，catchpacket 肯 定 会 结束 。 
打开 BPF 设 备 的 应 用 进程 可 能 调用 fork， 导 致 多 个 应 用 进程 都 有 权 访 问 同一 个 BPF 设 备 。 
只 有 支持 BPF 的 设备 才 会 出 现在 BPF 接 口 表 (bpf_if1list) 中 ， 因 此 ， 如 果 无 法 找 
到 指定 接口 ，bpf_setif 将 返回 ENXIO。 


在 第 一 个 例子 中 等 于 0， 第 二 个 例子 中 等 于 255。 这 些 值 都 是 RFC 1700 [Reynolds 和 
Postel 1994] 中 的 保留 值 ， 不 应 出 现在 数据 报 中 。 也 就 是 说 ， 如 果 某 个 插口 创建 时 的 
协议 号 设 定 为 TPPROTO_RAW， 则 必须 设 定 其 ITP_HDRINCL 揪 口 选项 ， 且 写 人 到 该 
插口 的 数据 报 必须 拥有 一 个 有 效 的 协议 值 。 

因为 IP 协 议 值 255 是 保留 值 ， 不 会 出 现在 网 络 中 传送 的 数据 报 中 。 但 这 又 是 一 个 非 
零 的 协议 值 ，rip_input 的 3 项 测试 中 的 第 一 项 测试 将 忽略 所 有 协议 值 不 等 于 255 
的 数据 报 。 因 此 ， 应 用 进程 无 法 在 该 插口 上 收 到 任何 数据 报 。 

即使 该 协议 值 是 一 个 保留 值 ， 不 会 出 现在 网 络 中 传送 的 数据 报 中 ， 但 rip_input 
的 3 项 测试 中 的 第 一 项 测试 保证 此 类 型 的 插口 能 够 接收 任何 协议 类 型 的 数据 报 。 如 
果 应 用 进程 调用 了 connect 或 者 bind， 或 者 两 者 都 调用 ， 对 于 此 种 原始 插口 而 言 
对 输入 的 唯一 限制 是 IP 报 的 源 地址 和 目的 地 址 。 

因为 ip_protox 数 组 (图 7-22) 保 存 了 有 关内 核 所 能 支持 的 协议 类 型 的 信息 ， 只 有 在 
该 协议 既 没 有 相关 的 原始 监听 插口 ， 而 且 指 针 inetsw[lip_protox[ip- 
>ip_p]].pr_input 等 于 rip_input 时 ， 才 会 生成 TCMP 差 错 报告 。 

两 种 情况 下 ， 应 用 进程 都 必须 自己 构造 IP 首 部 ， 以 及 其 后 的 内 容 (UDP 报 文 段 ，TCP 
报 文 段 或 任何 其 他 的 报 文 段 )。 对 于 原始 IP 播 口 ， 输 出 时 同样 调用 senato， 通 过 
Internet 插 口 地 址 结构 指明 目的 IP 地 址 。 调 用 ip_output， 并 依据 给 定 的 目的 下地 
址 执行 正常 的 耻 选 路 。 

BPF 要 求 应 用 进程 提供 完整 的 数据 链 路 层 首部 ， 例 如 以 太 网 首部 。 输 出 时 ， 需 调用 
write， 因 为 无 法 指明 目的 地 址 。 数 据 分 组 被 直接 交 给 接口 输出 函数 ， 跳 过 
ip_output 国 数 (图 31-20)。 应 用 进程 通过 BIOCSETIE ioctl (图 31- 16) 选 择 外 
出 接口 。 因 为 未 执行 IP 选 路 ， 数 据 帧 只 能 发 给 是 直接 相连 的 网 络 上 的 另 一 个 主机 
(除非 应 用 进程 重复 IP 选 路 函数 ， 并 将 数据 帧 发 给 直接 相 联网 络 上 的 某 个 路 由 右 ， 
由 路 由 器 根据 目的 IP 地 址 完成 转发 )。 

原始 IP 插 口 只 能 接收 具有 内 核 不 处 理 的 协议 类 型 的 数据 报 ， 例 如 ， 应 用 进程 无 法 在 
原始 插口 上 接收 TCP 报 文 段 或 UDP 报 文 段 。 

BPF 能 够 接收 到 达 指 定 接口 的 所 有 数据 帧 ， 无 论 它们 是 否 是 IP 数 据 报 。 
BIOCPROMISC ioct1 使 接口 处 于 一 种 混杂 状态 ， 甚 至 能 够 接收 不 是 发 给 本 主机 
的 数据 报 。 


附录 B 源 代码 的 获取 


URL: 统一 资源 定位 符 
本 附录 列 出 源 代 码 所 在 的 网 址 和 下 载 方式 。 例 如 ， 常 见 的 “匿名 FTP” 地 址 表示 如 下 : 


ftp://ftp.cdrom.com/pub/bsd-sources/4.4BSD-Lite.tar.gz 
即 主机 为 ftp.cdrom.com。 通 过 匿名 FTP 客 户 登 录 后 ， 从 目录 pub/bsd-sources 下 载 文 
件 4.4BSD-Lite.tar.gz。 后 缀 .tar 说 明文 件 以 标准 的 tar(1) 格 式 存储 ，.gz 说 明文 件 由 
GNU gzip (1) 程 序 压缩 。 


4.4BSD-Lite 


有 多 种 方式 可 得 到 4.4BSD-Lite 的 正式 版 代码 。 完 整 的 4.4BSD-Lite 正 式 版 代码 可 通过 
Walnut Creek CD-ROM 公 司 得 到 ， 网 址 为 

ftp://ftp.cdrom.com/pub/bsd-sources/4.4BSD-Lite.tar.gz 
或 者 直接 得 到 其 光碟 版 。 联 系 电 话 为 18007869907 或 +1510 674 0783。 

O'Reilly & Associates 出 版 的 CD-ROM， 包 括 全 套 的 4.4BSD 手 册 和 4.4BSD-Lite 正 式 版 代 
码 。 联 系 电话 为 1 800 889 8989 或 者 +1 707 829 0515。 


运行 4.4BSD-Lite 网 络 软件 的 操作 系统 


4.4BSD-Lite 正 式 版 不 是 一 个 完整 的 操作 系统 。 为 了 测试 本 书 中 介绍 的 网 络 软件 ， 需 要 内 
置 4.4BSD-Lite 正 式 版 的 操作 系统 ， 或 者 支持 4.4BSD-Lite 的 操作 系统 。 
作者 使 用 的 操作 系统 是 Berkeley Software Design Inc. 生 产 的 商用 系统 ， 联 系 电话 为 1 800 
ITS BSD8, +1 719 260 8114， 或 者 infoebsdi .com。 
还 有 些 免费 的 操作 系统 ， 已 内 置 了 4.4BSD-Lite， 如 NetBSD、386BSD 和 REreeBSd。 详 
情 请 见 Walnut Creek CD-ROM(£tp.cdrom. com) 或 者 comp .os .386bsqd Usenet 新 闻 组 。 


RFC 


所 有 RFC 都 是 免费 的 ， 通 过 电子 邮件 或 匿名 FTP 服 务 器 可 从 英 特 网 上 得 到 所 需 文档 。 向 下 
述 地 址 发 送 电 子 邮 件 : 


To: rfc-info8ISI.EDU. 
Subject: getting rfcs 
help: ways to get rfcs 


回复 邮件 中 会 列 出 通过 电子 邮件 或 匿名 FTP 服 务 器 获取 RFC 不 同方 法 的 详细 说 明 。 
记 住 ， 首 先 应 先 下 载 最 新 的 RFC 索引 ， 从 中 查找 所 需 的 RFC， 确 认 所 需 的 RFC 没 有 被 新 
的 RFC 更 新 或 取代 。 
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GNU 软 件 


利用 GNU Indent 程 序 对 本 书 出 现 的 所 有 源 代码 进行 格式 调整 ， 并 利用 GNU Gzip 程序 对 文 
件 做 了 压缩 。 这 些 程序 可 在 下 列 站 点 找到 : 


ftp://prep.ai.mit.edu/pub/gnu/indent-1.9.1.tar.gz 
ftp://prep.ai.mit.edu/pub/gnu/gzip-1.2.2.tar 


文件 名 中 的 数字 随 版 本 的 不 同 而 不 同 。 此 外 还 有 用 于 其 他 操作 系统 的 Gzip 程序 ， 如 MS-DOS 。 
英 特 网 上 还 有 许多 其 他 站 点 也 提供 GNU 资 源 ，prep .ai .mit .edu 主 机 的 问候 词 中 列 出 
了 这 些 站 点 的 名 称 。 


PPP 软 件 
有 些 PPP 实 现 是 免费 的 。comp .protocols .ppp FAQ 的 第 5 部 分 提供 了 很 多 有 价值 的 信 


em 


http://cs.uni-bonn.de/ppp/part5.html 


mroutedz (tr 
mrouted 软 件 的 最 新 版 本 和 其 他 多 播 应 用 程序 可 从 Xerox Palo Alto 研 究 中 心 的 站 点 得 到 : 


ftp://parcftp.xerox.com/pub/net-research/ 


ISODE 软 件 
ISODE 软 件 包 中 的 SNMP 代 理 实现 与 Net/3 兼 容 。 详 细 信 息 参 见 ISODE 论 坛 的 网 站 : 


http://www.isode.com/ 


MRC RFC 1122 的 有 关内 容 


本 附录 总 结 了 Net/3 实 现 与 RFC 1122[Braden 1989a] 建 议 的 兼容 性 。RFC 1122 分 4 类 给 出 了 
实现 需求 : 

。 链 路 层 

。IP 层 

* UDP 

。 TCP 

我 们 将 按照 本 书 章节 的 顺序 讨论 这 些 实现 要 求 。 


C.1 链 路 层 的 需求 


本 节 依 据 RFC 1122 中 的 2.5 节 总 结 了 链 路 层 需 求 和 Net/3 代 码 对 这 些 需 求 的 支持 程度 。 

。 建 议 支 持 尾 部 封装 。 

部 分 支持 : Net/3 不 发 送 带 有 尾部 封装 的 IP 数 据 报 ， 但 某 些 Net/3 设 备 驱动 程序 能 够 接收 
此 类 数据 报 。 感 兴趣 的 读者 可 以 阅读 RFC 893 和 [Leffler et al. 1989] 的 11.8 节 。 

。 没 有 协商 之 前 ， 默 认 状 态 必须 不 发 送 尾部 。 

不 支持 : Net/2 支 持 是 否 发 送 尾 部 启动 的 协商 过 程 。Net/3 忽 上 略 发 送 尾部 请 求 ， 且 不 会 向 
对 端 申请 发 送 尾 部 。 

。 必 须 能 够 发 送 和 接收 RFC 894 的 以 太 网 封装 。 

支持 : Net/3 支 持 RFC 894 的 以 太 网 封装 。 

。 应 该 能 够 接收 RFC 1042(IEEE 802) 封 装 。 

不 支持 : Net3 能 够 处 理 收 到 的 IEEE 802 的 封装 格式 ， 但 只 用 于 OSI 协议 栈 。 到 达 的 按 
802.3 封 装 的 IP 数 据 报 将 被 ether_input 琅 弃 ( 图 4-13)。 

。 建 议 发 送 报 文 段 实现 RFC 1042 封 装 格式 ， 为 此 ， 系 统 还 必须 实现 软件 可 配置 的 转换 开 
关 以 选择 合适 的 封装 格式 ， 且 RFC 894 应 为 默认 值 。 

不 支持 : Net/3 的 发 送 报 文 段 不 支持 RFC 1042 封 装 格式 。 

。 必 须 向 IP 层 提交 链 路 层 的 广播 报 文 。 

支持 : 链 路 层 通过 置 位 mbuf 数 据 报 首 部 的 M_BCRAST 标 志 ( 或 M_MCRAST 多 播 标志 ) 报 告 链 
路 层 的 广播 。 

。 必 须 向 链 路 层 提 交 IP TOS 值 。 

支持 : NeV3 没 有 明确 地 提交 TOS 值 ， 而 是 做 为 链 路 层 可 利用 的 下 首部 的 一 部 分 出 现 。 


C.2 IP 的 需求 


AC As TREC 1122 第 3.5 节 建议 的 IP 的 需求 以 及 本 书 介 绍 的 Net/3 系 统 对 这 些 需求 的 支持 
程度 。 
。 必 须 实现 耻 和 ICMP。 
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XH inetsw[0] XM TIP, inetsw[4] 实现 了 ICMP。 
* 必须 处 理应 用 层 的 远 端 多 接口 (multihoming) 通 信 。 

支持 : 内 核 不 区 分 远 端 多 接口 通信 ， 因 此 ， 既 不 阻碍 也 不 支持 应 用 程序 的 这 种 通信 方 
式 。 
。 建 议 支持 本 地 的 多 接口 通信 。 

支持 : Net/3 系 统 维护 一 个 ifnet 列 表 ， 昌 每 个 ifnet 结 构 都 带 有 一 个 jfaddr 列 表 ， 有 即 
每 个 下 接口 可 配置 多 个 下地 址 ， 从 而 支持 本 地 多 接口 通信 。 
。 如 果 转 发 IP 数 据 报 ， 则 必须 满足 路 由 器 规约 。 

部 分 支持 : 参见 第 18 章 ， 其 中 详细 讨论 了 路 由 器 的 需求 。 
“必须 为 内 置 的 路 由 器 功能 提供 使 能 选项 ， 软 认 设 置 应 为 主机 操作 。 

支持 : ipforwarding 变 量 默 认 值 为 FALSE， 控 制 Ney3 中 的 IP 数 据 报 转发 机 制 。 
。 必 须 禁止 基于 JP 接口 数 的 选 路 。 

支持 : if_attach 函 数 并 不 根据 系统 初 启 时 配置 的 接口 数 来 修改 ipforwarding 变 
量 。 
* 应 该 记录 丢弃 的 数据 报 ， 包 括 其 内 容 ， 并 在 统计 计数 器 中 记录 丢弃 事件 。- 

部 分 支持 : Net/3 没 有 提供 一 种 机 制 ， 能 够 保存 丢弃 数据 报 的 内 容 ， 但 维护 多 种 统计 计 
数 器 。 
。 必须 丢弃 IP 版 本 号 不 等 于 4 的 数据 报 而 不 回 显 信 息 。 

支持 : ipintr 实 现 此 需求 。 
* 必须 验证 IP 检 验 和 ， 并 丢弃 验证 失败 的 数据 报 而 不 回 显 信 息 。 

支持 : ipintr 调 用 ip_cksum， 实 现 此 需求 。 
* 必须 支持 子 网 地 址 (RFC 950)。 

支持 : 在 in_ifadqr 结 构 中 ， 所 有 的 IP 地 址 都 有 一 个 对 应 的 子 网 掩 码 。 
“ 必须 把 主机 自己 的 IP 地 址 作为 源 IP 地 址 ， 与 数据 报 同 时 发 送 。 

部 分 支持 : 如 果 运 输 层 发 送 的 IP 数 据 报 中 ， 源 地 址 为 全 0 时 ， 了 IP 插 人 外 出 接口 的 下 地 址 
作为 产地 址 。 应 用 进程 可 以 把 某 个 本 地 播 口 绑 定 在 本 地 卫 广 播 地 址 上 ， 了 王将 其 作为 无 效 
“必须 丢弃 不 是 发 往 本 地 主机 的 数据 报 而 不 回 显 信息 。 

支持 : 如 果 系 统 没有 被 配置 为 路 由 器 ，ipintr 丢 弃 且 的 地 址 差错 (无 法 辨认 的 单 播 、 
广播 或 多 播 地 址 ) 的 数据 报 。 

* 必须 丢弃 源 地 址 差错 的 数据 报 而 不 回 显 信息 。 

不 支持 : ipintr 把 数据 报 提交 给 运输 层 之 前 ， 不 检测 进入 数据 报 的 源 地 址 。 

* 必须 支持 重 装 。 

支持 : ip_reass 实 现 重 装 。 

“建议 为 同一 个 IP 数 据 报 设 定 同 样 的 ID。 

不 支持 : ip_output 为 每 个 外 出 数据 报 赋 一 个 新 的 ID， 并 且 不 允许 运输 层 协 议 设 定 IP 
数据 报 的 ID 。 参 见 第 32 章 。 

* 必须 元 许 运输 层 设 定 TOS。 

支持 : ip_output 接 受 运输 层 协 议 在 IP 首 部 设 定 的 所 有 TOS 值 。 运 输 层 在 默认 情况 下 ， 
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必须 把 TOS 设 为 全 0。 应 用 进程 可 通过 IP_ToS 播 口 选 项 设 定 某 个 特定 数据 报 或 连接 的 
TOS 值 。 

*。 必须 把 TOS 值 上 交 给 运输 层 。 

支持 : Net/3 在 输入 处 理 期 间 保存 TOS 字 段 的 值 。 当 IP 针 对 接收 数据 报 的 协议 调用 
pr_input 函数 时 ， 运 输 层 可 得 到 完整 的 IP 首 部 。 不 幸 的 是 ，UDP 和 TCP 运 输 层 协 议 名 
略 该 字段 。 

。 应 该 不 采用 RFC 795 [Postel 1981d]j 中 建议 的 TOS 链 路 层 匹 配方 式 。 

支持 : Net/3 没 有 使 用 这 些 匹 配方 式 。 

。 必 须 不 发 送 TTL 等 于 0 的 数据 报 。 

部 分 支持 :Net/3 中 的 IP 层 (ip_output) 不 检查 这 项 需求 ， 而 是 依靠 运输 层 以 使 得 不 会 
构造 TTL 等 于 0 的 卫 首 部 。UDP、TCP、 ICMP 和 IGMP 都 选择 了 一 个 非 零 的 TTL 默 认 值 。 
但 默认 值 可 被 IP_TTL 选 项 忽略 。 

。 必 须 不 丢弃 TTL 小 于 2 的 接收 数据 报 。 

支持 : 只 要 系统 是 数据 报 的 目的 地 ，ipintr 将 接受 该 数据 报 ， 并 不 测试 其 TTL 值 。 只 
有 在 数据 报 需要 被 转发 时 ， 才 会 检测 TTL 值 。 

。 必 须 允 许 运输 层 设 定 TTL。 

支持 : 运输 层 在 调用 ip_output 之 前 ， 必 须 设 定 TTL。 

。 必须 允许 配置 一 个 固定 的 TTL 值 。 

支持 : 全 局 整 型 变量 ip_deftt1 中 保存 了 TTL 软 认 值 ， 等 于 64(IPDEFTTL)。 UDP 和 
TCP 都 使 用 此 默认 值 ， 除 非 应 用 进程 通过 IP_TTL 插 口 选 项 为 某 个 特定 的 插口 指派 了 一 
个 不 同 的 值 。 通 过 调用 sysct1， 通 过 指派 IPCTL_DEFTTT， 可 以 修改 iP_aefttl。 


多 接口 


。 应 该 选取 接收 数据 报 中 指定 的 目的 地 址 作为 响应 的 源 地 址 。 

支持 : 内核 生成 的 响应 (ICMP 响 应 报 文 段 ) 包 含 了 正确 的 源 地 址 (C.5 节 )。 运 输 层 生 成 的 
响应 在 其 各 自 章 节 中 作 了 描述 。 
。 必 须 允 许 应 用 进程 选取 本 地 JP 地址 。 

支持 : 应 用 程序 能 够 把 插口 绑 定 在 指派 的 本 地 IP 地 址 上 (15.8 市 )。 

。 建 议 丢弃 目的 地 址 与 所 到 达 的 接口 了 地址 不 同 的 数据 报 而 不 回 显 信息 。 

不 支持 : NetU3 实 现 了 一 个 简单 的 终端 系统 模型 ，ipintzr 接 受 此 类 的 数据 报 。 

- 建议 数 据 报 离开 系统 时 所 选 接口 的 IP 地 址 应 与 数据 报 的 源 地 址 一 致 。 本 需求 不 适用 于 源 
站 选 路 的 数据 报 。 

不 支持 : Net/3 允 许 数 据 报 通过 任意 接口 离开 系统 一 一 另 一 个 简单 终端 系统 的 特征 。 


广播 


。 必须 禁止 在 源 地 址 中 选用 下 广播 地 址 。 
部 分 支持 : 如 果 应 用 程序 明确 地 指派 了 源 地 址 ，IP 层 不 会 改变 此 设置 。 否 则 ，IP 选 择 与 
外 出 接口 相连 的 下 地 址 作为 源 地 址 。 

* 应 该 接受 全 0 或 全 1 的 广播 地 址 。 
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支持 : ipintr 接 受 发 向 上 述 任何 一 个 地 址 的 数据 报 。 

“建议 提供 选项 ， 人 允许 在 指派 接口 上 配置 广播 地 址 为 全 0 或 全 1。 如 果 提 供 该 选项 ， 可 配置 
的 广播 地 址 默认 值 应 为 全 1。 

不 支持 : 应 用 进程 必须 明确 地 向 全 0(INADDR_ANY) 或 全 1(INADDR_BROADCAST) 广 播 
地 址 发 送 数据 报 。 没 有 配置 默认 值 。 

* 必须 在 链 路 层 广播 中 使 用 下 广播 地 址 或 了 多 播 目的 地 址 。 

支持 : 只 有 当 目 的 地 址 是 下 多 播 地 址 或 广播 地 址 时 ，ip_output 才 会 置 位 链 路 层 多 播 
或 广播 标志 。 

。 应 该 丢弃 链 路 层 广播 数据 帧 而 不 回 显 信 息 ， 如 果 它 未 指派 某 个 IP 广 播 地 址 作为 其 目的 地 
址 。 

不 支持 : Net/3 中 ， 没 有 对 输入 数据 根 中 的 M_BCAST 或 M_MCAST 标 志 作 明确 测试 ， 但 
ip_forward 在 转发 前 会 丢弃 这 些 数 据 报 。 

。 对 直接 相连 的 网 络 ， 应 使 用 受 限 的 广播 地 址 

部 分 支持 : Net/3 中 ， 是 否 使 用 受 限 的 广播 地 址 (相对 于 子 网 广播 地 址 和 全 网 广播 地 址 ) 由 
应 用 进程 决定 。 


IP 接 口 


* 必须 允许 运输 层 使 用 所 有 的 IP 机 制 (如 IP 选 项 、TTL 和 TOS)。 

支持 : Net/3 中 的 运输 层 可 使 用 所 有 的 IP 机 制 。 

。 必 须 向 运输 层 提交 IP 接 口号 。 

支持 : 每 个 保存 进入 数据 报 的 mbuf 中 的 m_pkthdr .rcvif 成 员 变 量 指向 一 个 ijfnet 结 
构 ， 其 中 保存 了 接收 该 数据 报 的 接口 的 信息 。 

。 必须 向 运输 层 提交 所 有 下 选 项 

支持 : ipintr 向 运输 层 接收 协议 的 pr_input 函 数 提交 的 数据 报 中 ， 包 含 了 完整 的 IP 
首部 ， 包 括 各 种 耳 选 项 。 

。 必 须 允 许 运 输 层 发 送 “ICMP 端 口 不 可 达 ” 报 文 和 其 他 所 有 ICMP 查 询 报 文 。 

支持 : 运输 层 调 用 icmp_error 可 以 发 送 任何 ICMP 差 错 报 文 ; 或 者 调用 ip_output， 
构造 并 发 送 任何 类 型 的 卫 数 据 报 。 

。 必 须 向 运输 层 提交 下 列 ICMP 报 文 : 目的 地 址 不 可 达 、 源 站 抑制 、 回 显 回答 、 时 间 戳 回 
答 和 数据 报 超时 。 

支持 : ICMP 可 以 向 其 他 运输 层 协议 发 送 此 类 报 文 段 ， 或 通过 原始 IP 机 制 向 任何 等 待 进 
程 发 送 此 类 报 文 段 。 

。 必 须 在 向 运输 是 提交 的 ICMP 报 文中 包括 ICMP 报 文 内 容 (IP 首 部 和 附加 数据 》 

支持 : icmp_input 向 运输 层 提交 包含 在 ICMP 报 文中 的 原始 IP 数 据 报 。 

。 应 该 在 一 次 处 理 中 完成 所 有 功能 。 

不 支持 : 也 许 在 下 一 版 下 中 能 够 实现 。 


C.3 “IP 选项 的 要 求 
本 节 总 结 了 RFC 1122 第 3.5 节 中 也 选项 处 理 的 需求 ， 以 及 本 书 介绍 的 Net/3 系 统 对 这 些 需 求 
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的 支持 程度 。 
“必须 允许 运输 层 设 置 IP 选 项 。 


支持 :ip_output 的 第 二 个 参数 即 为 用 于 输出 IP 数 据 报 的 IP 选 项 列表 。 


* 必须 向 高 层 提交 收 到 的 所 有 JP 选项。 
支持 : IP 首 部 及 选项 都 能 传递 给 运输 层 接 收 协 议 的 pr_input 函 数 。 
* 必须 忽略 所 有 未 知 选项 。 
支持 : ip_dooptions 中 的 aefault 语 句 跳 过 了 所 有 未 知 选项 。 
。 建 议 支持 安全 选项 。 
不 支持 : Net/3 不 支持 IP 安 全 选项 。 
* 建议 不 发 送 流 标识 选项 ， 并 且 必 须 忽 略 接收 数据 报 中 的 该 选项 。 
支持 : Net/3 不 支持 流标 识 选 项 ， 并 忽略 接收 数据 报 中 的 该 选项 。 
* 建议 支持 路 由 记录 选项 。 
支持 : Net/3 支 持 路 由 记录 选项 。 
。 建 议 支持 时 间 惟 选项 。 


部 分 支持 : NeU3 支 持 时 间 戳 选项 ， 但 没有 完全 遵照 规定 的 方式 递增 时 间 戳 值 。 有 时 间 惟 
请 求 时 ， 源 主机 并 未 在 报 文 段 中 插入 时 间 戳 ， 而 是 由 对 端 主机 在 向 运输 层 提 交 数 据 报 之 
前 记录 时 间 戳 值 。 时 间 戳 值 遵守 REC 1122 第 3.2.2.8 节 中 对 ICMP 时 间 戳 报 文 段 标准 值 的 


规定 。 
* 必须 支持 源 站 选 路 ， 必 须 能 够 成 为 源 站 选 路 报 文 段 的 终点 。 


支持 : 源 站 选 路 选项 可 作为 传送 给 ip_output 的 参数 ，ip_dooptions 能 够 正确 地 终 


止 源 站 选 路 ， 并 能 保存 该 路 由 ， 在 构造 返回 路 由 时 使 用 。 
* 向 运输 层 提 交 数 据 报时 ， 必 须 同时 提交 完整 的 源 站 选 路 路 由 。 


支持 : 源 站 选 路 路 由 与 其 他 数据 报 中 可 能 出 现 的 P 选 项 一 起 ， 提 交 给 运输 层 。 


* 必须 构造 正确 的 ( 非 元 余 的 ) 返 回路 由 。 


不 支持 : NeU3 只 是 简单 地 逆转 收 到 的 源 选 路 路 由 ， 并 不 检查 或 纠正 路 由 中 可 能 在 在 的 多 


* 必须 禁止 在 一 个 首部 中 发 送 多 个 源 路 由 选项 。 


不 支持 : NeV3 的 IP 层 不 禁止 运输 层 在 一 个 数据 报 中 构造 并 发 送 多 个 源 路 由 。 


源 路 由 转发 


。 建 议 支 持 带 源 路 由 选项 的 数据 报 的 转发 。 

支持 : Net/3 支 持 源 路 由 选项 。ip_dooptions 实 现 所 有 功能 。 
。 处理 源 路 由 选项 的 同时 ， 必 须 遵守 相应 的 路 由 器 原则 。 

支持 : Net/3 遵 守 路 由 器 原则 ， 无 论 数据 报 上 是 否 包 含 源 路 由 。 
。 必 须根 据 网 关 原则 更 新 TTL。 

支持 : ip_forward 实 现 本 需求 。 
。 必 须 生 成 ICMP 差 错 代码 4 和 5( 需 要 分 片 和 源 路 由 失败 )。 


支持 : ip_output 能 够 生成 “需要 分 片 ” 报 文 ，ip_dooptions 能 够 生成 


败 ” 报 文 。 


“ 源 路 由 失 
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* 必须 允许 带 有 源 路 由 选项 数据 报 的 IP 源 地 址 不 是 转发 主机 的 IP 地 址 。 
支持 : ip_output 发 送 此 类 数据 报 。 

RFC 1122 将 本 需求 指明 为 “建议 ”， 因 为 地 址 可 能 不 一 致 ， 但 必须 允许 这 种 不 一 

致 。 

。 必须 更 新 时 间 惟 和 记录 路 由 选项 
支持 : ip_dooptions 为 带 有 源 路 由 选项 的 数据 报 处 理 这 些 选 项 。 

。 必 须 支 持 一 个 可 配置 选项 ， 用 干 打 开 或 关闭 “ 非 本 地 源 路 由 ”。 选 项 默认 值 应 为 关闭 。 
不 支持 : Net/3 人 允许 非 本 地 源 选 路 ， 没 有 提供 一 个 选项 来 关闭 此 功能 。 非 本 地 源 选 路 指 在 
两 个 不 同 接口 间 转 发 数据 报 ， 而 不 是 在 同一 接口 接收 和 发 送 数据 报 。 

。 非 本 地 源 选 路 处 理 中 ， 必 须 满足 网 关 接 人 规则 。 
支持 : NetV3 在 非 本 地 源 选 路 处 理 过 程 中 ， 遵 守 转 发 规则 。 

* 如 果 无 法 转发 源 选 路 数据 报 (除了 ICMP 差 错 报 文 )， 应 该 发 送 ICMP“ 目 的 地 不 可 达 ” 差 
错 ( 源 路 由 失败 ) 报 文 。 
支持 : ip_dooptions 发 送 ICMP“ 目 的 地 不 可 达 ” 差 错 报 文 。 如 果 处 理 的 数据 报 是 一 
个 ICMP 差 错 报 文 ，icmp_error 将 丢弃 新 生成 的 ICMP 差 错 报 文 。 


C.4 IP 分 片 与 重 装 的 需求 
本 节 总 结 了 RFC 1122 第 3.5 节 中 关于 IP 分 片 和 重 装 的 需求 ， 以 及 NeW3 对 这 些 需求 的 支持 程 


= 


* 必须 能 够 重 装 输入 的 数据 报 ， 数 据 报 长 度 至 少 为 576 字 节 。 
支持 : ip_reass 支 持 数据 报 的 重 装 ， 且 数据 报 的 长 度 不 限 。 
* 应 该 不 限制 输入 数据 报 的 长 度 ， 或 者 允许 配置 输入 数据 报 长 度 的 上 限 。 
支持 : Net/3 不 限制 输入 数据 报 的 长 度 。 
* 必须 提供 某 种 机 制 ， 允 许 运输 层 了 解 接 收 的 最 大 数据 报 长 度 。 
不 适用 : NeV3 可 接收 的 数据 报 长 度 只 受 可 用 存储 器 的 限制 。 
* 重 装 超时 时 ， 必 须 能 够 发 送 ICMP“ 数 据 报 超时 ”差错 报 文 。 
不 支持 : Nev3 不 发 送 ICMP“ 数 据 报 超 时 ”差错 报 文 。 参 见 图 10-30 和 习题 10.1。 
* 应 该 设 定 一 个 固定 的 重 装 超时 值 ， 且 不 应 该 采用 收 到 的 耻 分 片 中 TTL 的 剩余 值 作为 重 装 
超时 值 。 
支持 : Net/3 采 用 编译 时 指派 的 固定 值 30 秒 (IPFRAGTTL 等 于 60 个 慢 超时 时 间 间 隔 ， 约 为 
30 秒 ) 做 为 重 装 超时 值 。 
* 必须 向 高 层 提供 NMS_S( 可 发 送 的 最 大 报 文 段 长 度 )。 
部 分 支持 : TCP 首 先 从 到 达 目 的 地 的 路 由 表 项 中 找到 最 大 的 MTU， 或 者 是 读 取 外 出 接口 
的 MTU， 并 根据 上 述 MTU 计 算出 NMS_S。UDP 应 用 程序 无 法 得 到 此 信息 。 
* 必须 支持 对 外 出 数据 报 的 本 地 分 片 。 
支持 : 如 果 ip_output 发 现 外 出 数据 报 长 度 大 于 指定 外 出 接口 的 MTU， 则 对 其 分 片 。 
* 如 果 不 支 持 数 据 报 的 本 地 分 片 ， 则 必须 禁止 运输 层 发 送 长 度 大 于 NMS-_S 的 报 文 段 。 
不 适用 : 这 条 对 于 运输 野 的 需求 不 适用 于 Net/3 系 统 ， 因 为 系统 支持 数据 报 的 本 地 分 片 。 
。 如 果 无 法 确 知 到 达 远 端 目的 地 路 由 的 最 小 MTU， 则 不 应 该 向 远 端 目的 地 发 送 大 于 576 字 
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C.5 


节 的 报 文 段 。 
部 分 支持 : Net/3 TCP 报 文 眉 的 默认 大 小 等 于 553 字 节 (512 字 节 数 据 + 40 字 节 首 部 )。 
Net/3 UDP 应 用 程序 无 法 确认 目的 地 址 位 于 本 地 ， 或 是 远 端 ， 因 此 ， 通 沼 都 将 报 文 段 大 
小 限制 在 540 字 节 以 下 (512 + 20 + 8)。 内 核 中 没有 机 制 禁止 发 送 长 度 超 出 限制 的 报 文 。 
。 建 议 支 持 “ 全 部 子 网 MTU” 配 置 标志 。 
支持 : 全 局 变量 subnetsarelocal 软 认为 TRUE。TCP 向 本 地 网 络 中 的 某 个 子 网 发 送 
报 文 段 时 ， 利 用 该 标志 选择 较 大 的 报 文 段 长 度 (外 出 接口 的 MTU 的 大 小 )， 取 代 默 认 的 报 
文 段 大 小 。 


ICMP 的 需求 


本 节 总 结 了 RFC 1122 第 3.5 节 中 关于 ICMP 的 需求 ， 以 及 Net/3 系 统 对 这 些 需求 的 支持 程 
度 。 
。 必 须 丢 弃 不 了 解 的 ICMP 报 文 而 不 回 显 信息 。 
部 分 支持 : icmp_input 忽 略 未 知 的 ICMP 报 文 ， 将 其 交 给 zip_input， 后 者 将 报 文 段 
交 给 任何 等 待 进程 ， 或 者 在 没有 进程 接收 的 情况 下 将 其 丢弃 而 不 回 显 信 息 。 
* 建议 携带 原始 数据 报 中 至 少 8 字 节 的 内 容 。 
不 支持 : icmp_error 在 ICMP 差 错 报 文中 ， 最 多 返回 原始 数据 报 中 8 字 节 的 内 容 ， 参 见 
习题 11.9。 
。 必 须 原封 不 动 地 返回 接收 数据 报 的 首部 和 数据 。 
部 分 支持 : Net/3 的 jpintr 将 接收 数据 报 的 ID、 偏 移 量 和 长 度 字 段 从 网 络 字 节 序 转换 为 
主机 字 节 序 ， 从 而 方便 数据 报 的 处 理 。 但 Net/3 在 把 偏 移 量 和 长 度 字段 放 入 ICMP 差 错 报 
文 时 ， 没 有 将 这 两 个 字段 转换 回 网 络 字 节 序 。 如 果 系 统 的 主机 字 节 序 与 网 络 字 节 序 相 同 ， 
这 个 差错 不 会 引起 误解 。 但 如 果 系 统 的 主机 字 节 序 与 网 络 字 节 序 不 一 致 ，ICMP 差 错 报 
文中 携带 的 IP 首 部 报 文 段 中 的 偏 移 量 和 长 度 字段 都 是 错误 的 。 
作者 发 现 ，Intel 版 的 SVR4 和 AIX 3.2( 基 于 NeU2) 返 回 的 长 度 字段 的 字 节 顺序 都 是 
错误 的 ， 而 实验 过 的 其 他 不 基于 Net/2 和 Net/3 的 实现 (Cisco、NetBlazer、VM 和 
Solaris2.3) 却 没有 此 差错 。 
此 外 ， 在 UDP 代 码 中 发 送 ICMP “端口 不 可 达 ” 差 错 报 文 时 ， 还 有 一 个 差错 : 接 
收 数据 报 的 首部 长 度 被 错误 地 修改 了 (23.7 节 )。 作 者 在 NeU2 和 Net/3 系 统 中 都 发 现 了 
这 个 差错 ,而 Net/1 版 中 却 没有 。 
。 必 须 能 够 将 收 到 的 ICMP 差 错 分 用 给 运输 层 协 议 。 
支持 : icmp_error 利 用 原始 数据 报 首部 的 协议 字段 选择 适当 的 运输 层 协 议 ， 以 响应 该 
差错 。 
。 发 送 ICMP 差 错 报 文 时 ，TOS 字 段 应 该 等 于 0。 
支持 : icmp_error 构 造 的 所 有 ICMP 差 错 报 文 的 TOS 字 段 都 等 于 0。 
。 必 须 禁 止 ICMP 差 错 报 文 再 次 引发 新 的 ICMP 差 错 报 文 。 
部 分 支持 : ICMP 重 定向 报 文 可 能 导致 1cmp_error 发 送 新 的 ICMP 差 错 报 文 。RFC 
1122 第 3.2.2 节 中 把 ICMP 重 定向 报 文 划分 为 ICMP 差 错 报 文 。 


HRC RFC 1122 的 有 类 内容 881 


* 必须 禁 I 上 IP 广 播 或 多 播报 文 引 发 ICMP 差 错 外 。 
不 支持 : icmp_error 不 进行 此 类 检查 。 
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*。 必 须 禁 止 链 路 层 广播 报 文 引发 ICMP 差 错 报 文 。 

支持 : icmp_error 于 弃 作 为 链 路 层 广 播 或 多 播报 文 到 达 的 ICMP 报 文 。 

* 必须 禁 止 了 数据 报 的 后 续 分 片 引 发 TEMP 差错 。 

支持 : icmp_error 丢 弃 此 类 情况 引发 的 ICMP 差 错 报 文 。 

。 必 须 禁 上 上 源 地 址 不 确定 的 数据 报 引 发 ICMP 差 错 报 文 。 

支持 : icmp_reflect 检 查实 验 性 地 址 和 多 播 地 址 。ip_output 丢 弃 源 地 址 等 于 广播 
地 址 的 数据 报 。 

。 不 属于 禁止 范围 之 内 时 ， 必 须 返 回 ICMP 差 错 报 文 。 

部 分 支持 : 一 般 情 况 下 ，Net3 发 送 适 当 的 ICMP 差 错 报 文 。 但 某 些 情况 下 ， 它 无 法 发 送 
ICMP “分 片 重 装 超时 ” 报 文 (习题 10.1)。 

“应 该 生成 ICMP“ 目 的 站 不 可 达 ” 报 文 (协议 和 端口 )。 

不 支持 : 如 果 数 据 报 所 指明 的 协议 系统 不 支持 ， 则 交 由 rip_input 函 数 处 理 。 后 者 检 
查 确认 系统 中 没有 应 用 进程 能 够 处 理 此 数据 报 后 ， 将 数据 报 丢 弃 而 不 回 显 信 息 。UDP 生 
成 ICMP“ 端 口 不 可 达 ” 差 错 报 文 。 

。 必 须 向 高 层 提 交 ICMP“ 目 的 站 不 可 达 ” 差 错 报 文 。 

支持 : icmp_input 向 指定 协议 的 pr_ct1linput 国 数 (例如 ，UDP 的 uap_ctlinput 
函数 ，TCP 的 Ecp_ctlinput 国 数 ) 提 交 此 类 报 文 。 

。 应 该 响应 “目的 站 不 可 达 ” 差 错 报 文 。 

参见 23.9 节 和 27.6 节 。 

。 必 须 把 “目的 站 不 可 达 ” 差错 解释 为 一 种 上 暗示， 可 能 只 是 一 种 临时 状态 。 

参见 23 .9 节 和 27.6 节 。 

。 如 果 配 置 为 主机 ， 则 必须 禁止 发 送 ICMP“ 重 定向 ” 报 文 段 。 

支持 : ip_forward， 唯 一 的 检测 和 发 送 “ 重 定向 ” 报 文 的 函数 ， 只 有 在 系统 配置 为 路 
由 器 时 才 会 被 调用 。 | 

。 收 到 ICMP“ 重 定向 ” 报 文 时 ， 必 须 更 新 路 由 表 缓 存 。 

支持 : ipintr 调 用 rtredirect， 处 理 此 报 文 。 

。 必 须 能 够 处 理 “ 主 机 重 定向 ”和 “网 络 重 定向 ” 报 文 段 。 此 外 ， 必 须 把 “网 络 重 定向 ” 
报 文 作 为 “主机 重 定向 ” 报 文 进 行 处 理 。 

支持 : ipintr 调 用 rtredirect， 处 理 这 两 类 报 文 。 

。 应 该 丢弃 非法 的 重 定向 报 文 

XH rtredirect E SEHEZEBU SR 4E FL fR XC 19.7 53). 

。 存 储 器 不 足 时 ， 建 议 发 送 “ 源 站 抑制 ” 报 文 。 

支持 : 如 果 ip_output 返 回 BNOBUFS，ip_forward 发 送 “ 源 站 抑制 ” 报 文 。 如 果 
mbaf 不 足 ， 或 者 接口 输出 队列 已 满 时 ， 会 出 现 这 种 情况 。 

- 必须 向 高 层 提 交 “ 源 站 抑制 ” 报 文 。 

支持 : icmp_input 向 运输 层 提 交 “ 源 站 抑制 ”差错 报 文 。 
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- 高 层 应 该 响应 “ 源 站 抑制 ”差错 报 文 。 

详 见 23.9 节 和 27.6 节 ，UDP 和 TCP 的 处 理 逻 辑 。ICMP 和 IGMP 都 不 接受 ICMP 差 错 报 文 
(它们 没有 定义 自己 的 pr_ctlinput 函 数 )。 这 种 情况 下 ，IP 将 丢弃 ICMP 差 错 报 文 。 

- 必须 向 运输 层 提 交 “ 数 据 报 超时 ”差错 报 文 。 

支持 : icmp_input 向 运输 层 提交 此 类 差错 报 文 。 

* 应 该 发 送 “ 数 据 报 参数 错 ” 报 文 段 。 

XH ip_qdooptions 发 现 选项 构造 差错 时 ， 会 发 送 此 报 文 段 。 

* 必须 向 运输 层 报告 出 现 数据 报 参 数 差 错 。 

支持 : icmp_input 疝 运输 层 报告 此 类 差错 。 

* 建议 向 应 用 进程 报告 出 现 参数 差错 。 

详 见 23.9 节 和 27.6 节 ，UDP 和 TCP 的 处 理 逻 辑 。ICMP 和 IGMP 都 不 接受 ICMP 差 错 报 文 。 
* 必须 支持 回 显 服务 器 ， 应 该 支持 回 显 客户 。 

支持 : icmp_input 实 现 回 显 服务 器 ，ping 程 序 利 用 原始 耳 插 口 实现 回 显 客户 。 

。 建 议 丢 弃 发 往 广播 地 址 的 回 显 请 求 报 文 。 

不 支持 : icmpb_reflect 发 送 应 答 。 

。 建 议 丢 弃 发 往 多 播 地 址 的 回 显 请 求 报 文 。 

不 支持 : Net/3 响 应 发 往 多 播 地 址 的 回 显 请 求 报 文 。icmp_reflect 和 ip_output 都 允 
许多 播 目 的 地 址 。 

。 必 须 使 用 确定 的 目的 地 址 作为 回 显 回答 报 文 的 源 地 址 。 

支持 : icmp_reflect 将 广播 地 址 或 多 播 地 址 转换 为 接收 接口 的 IP 地 址 ， 并 将 转换 后 的 
地 址 用 于 回 显 回答 报 文 的 源 地 址 。 

。 必须 在 回 显 回答 报 文中 返回 回 显 靖 求 数据 。 

支持 : icmp_reflect 不 更 改 回 显 请 求 报 文 的 数据 部 分 。 

。 必 须 向 高 层 提 交 回 显 回 答 报 文 。 

支持 : ICMP 回 显 回答 报 文 提交 给 rip_input， 进 而 交 给 指明 的 应 用 进程 。 

。 必须 响应 ICMP 回 显 请 求 报 文中 携带 的 记录 路 由 和 时 间 惟 选项 。 

支持 : icmp_reflect 在 回 显 回答 报 文中 包括 记录 路 由 和 时 间 巷 选项 。 

。 必 须 道 转 并 响应 源 路 由 选项 。 

XH: icmp_reflect 调 用 ip_srcroute， 获 取 逆 转 的 源 路 由 ， 并 放 和 人 外 出 的 回 显 回 
答 报 文中 。 

。 应 该 不 支持 ICMP 信 息 请 求 和 信息 回答 报 文 段 。 

部 分 支持 : 内 核 不 生成 或 响应 这 两 类 报 文 段 ， 但 应 用 进程 可 能 会 通过 原始 IP 插 口 发 送 或 
接收 这 两 类 报 文 段 。 

。 建 议 实现 ICMP 时 间 惟 请 求 和 时 间 戳 回答 报 文 段 。 

支持 : icmp_input 实 现时 间 惟 服务 器 的 功能 。 时 间 惟 客户 的 功能 可 通过 原始 耳机 制 来 
实现 。 

。 必 须 最 小 化 时 间 发 延 时 偏 移 量 (如 果实 现时 间 蕉 报 文 )。 

部 分 支持 : 接收 时 间 惟 在 报 文 从 IP 输 入 队列 中 取出 时 加 入 ， 发 送 时 间 改 在 报 文 放 人 接口 
输出 队列 前 加 入 。 


HRC RFC 1122 的 有 类 内容 883 


。 建 议 丢 弃 发 往 广播 地 址 的 时 间 截 请 求 而 不 回 显 信 息 。 

不 支持 : icmp_input 响 应 发 向 广播 地 址 的 时 间 惟 请 求 。 

。 必 须 使 用 确定 的 目的 地 址 作为 时 间 惟 回答 报 文 的 源 地 址 。 

支持 : icmp_reflect 将 广播 地 址 和 或 多 播 地 址 转换 为 接收 接口 的 IP 地 址 ， 并 将 转换 后 
的 地 址 用 于 时 间 蕉 回答 报 文 的 源 地 址 。 

“应 该 响应 ICMP 时 间 截 请 求 报 文中 携带 的 记录 路 由 和 时 间 戳 选项 。 

支持 : icmp_reflect 在 时 间 惟 回答 报 文中 包括 记录 路 由 和 时 间 戳 选项。 

。 必 须 逆转 并 响应 ICMP 时 间 截 请 求 报 文中 携带 的 源 路 由 选项 。 

XH icmp_reflect 调 用 ip_srcroute， 获 取 逆 转 的 源 路 由 ， 并 放 入 外 出 的 时 间 截 
回答 报 文中 。 

« 必须 向 高 层 提交 时 间 蕉 回答 报 文 。 

支持 : ICMP 时 间 惟 回答 报 文 提 交 给 rip_input， 进 而 交 给 指定 的 应 用 进程 。 

* 必须 遵守 有 关 标准 时 间 恰 值 的 规定 。 

支持 : icmp_input 调 用 iptime， 后 者 可 返回 标准 时 间 戳 值 。 

。 必 须 能 够 通过 配置 改变 接口 的 地 址 掩 码 。 

不 支持 : Net/3 通 过 i fconfig 程 序 ， 只 支持 地 址 掩 码 的 静态 配置 。 

。 必 须 支 持 地 址 掩 码 的 静态 配置 。 

支持 : Net/3 间 接 实现 了 这 一 功能 。 典 型 情况 下 ， 通 过 /etc/netstart 批 处 理 文 件 执行 
系统 初始 化 ， 调 用 ifconfig 程 序 配 置 接口 时 ， 可 设 定 静态 信息 。 

。 建 议 系统 初始 化 时 动态 获取 地 址 掩 码 。 

不 支持 : Net/3 不 支持 利用 BOOTP 或 DHCP， 获 取 地 址 掩 码 信息 。 

“建议 通过 ICMP 地 址 掩 码 请 求 和 回答 报 文 获取 地 址 掩 码 信 息 。 

不 支持 : Net/3 不 支持 通过 ICMP 地 址 掩 码 请 求 和 回答 报 文 获取 地 址 掩 码 信 息 。 

。 如 果 没 有 上 响应， 必须 重 传 地 址 掩 码 请 求 。 

不 适用 : Net/3 不 支持 此 项 功能 。 

。 如 果 没 有 响应 ， 建 议 使 用 假定 的 默认 地 址 掩 码 

不 适用 : Net/3 不 支持 此 项 功能 。 

。 只 允许 在 收 到 第 一 个 响应 时 更 新 地 址 掩 码 。 

不 适用 : Net/3 不 支持 此 项 功能 。 

。 建 议 对 所 有 已 安装 的 地 址 掩 码 进 行 合理 的 检测 。 

不 支持 : Net/3 不 对 地 址 掩 码 进行 检测 。 

。 必 须 禁 止 响 应 未 确认 的 地 址 掩 码 请 求 报 文 ， 且 必须 被 明确 地 配置 为 代理 。 

支持 : icmp_input 只 有 当 icmpmaskrep1 非 零 时 (默认 为 0)， 才 会 响应 地 址 掩 码 请 求 
报 文 。 

。 应 该 为 每 个 静态 配置 的 地 址 掩 码 设 定 相应 的 地 址 掩 码 确认 标志 。 

不 支持 : NeU3 只 维护 一 个 全 局 的 确认 标志 (icmpmaskrep1)， 发 送 任何 接口 的 地 址 掩 
码 回 答 报 文 之 前 都 要 查询 同一 个 全 局 变量 。 

* 必须 在 初始 化 时 广播 地 址 掩 码 回 答 报 文 。 

不 支持 : Net3 配 置 接口 时 ， 不 广播 地 址 掩 码 回答 报 文 。 
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C.6 多 播 的 需求 


本 节 总 结 了 RFC 1122 第 3.5 节 关于 IP 多 播 功能 的 需求 ， 以 及 Net/3 系 统 对 这 些 需求 的 支持 程 
度 。 

。 应 该 支持 本 地 IP 多 播 (RFC 1122). 

支持 : Net/3 支 持 IP 多 播 。 

。 应 该 在 启动 时 加 入 全 主机 组 。 

支持 : in_ifinit 初 始 化 接口 时 加 入 全 主机 组 。 

。 应 该 为 高 层 提 供 一 种 机 制 ， 使 其 能 够 了 解 接口 的 卫 多 播 功能 。 

支持 : 内 核 代 码 能 够 直接 访问 接口 ifnet 结 构 中 的 IFF_MULTICRAST 标 志 ， 应 用 进程 通 

过 SITOCGIFFLAGS 命 令 也 能 做 到 这 一 点 。 


C.7 IGMP 的 需求 


本 节 总 结 了 RFC 1122 第 3.5 节 关于 IGMP 功 能 的 需求 ， 以 及 Net/3 系 统 对 这 些 需求 的 支持 程 
度 。 

。 建议 支持 IGMP(RFC 1122) 

支持 : Net/3 支 持 IGMP。 


C.8 选 路 的 需求 


本 节 总 结 了 RFC 1122 第 3.5 节 关于 也 选 路 功能 的 需求 ， 以 及 NeV3 系 统 对 这 些 需求 的 支持 程 
E. WEE, RFE 中 的 这 些 需 求 只 适用 于 主机 ， 而 非 内 核 的 实现 。Net/3 内 核 的 选 路 函数 没有 
明确 实现 其 中 的 某 些 条 款 ， 但 这 些 功能 都 包括 在 后 台 选 路 进程 如 routed 或 gated 中 。 

。 必 须 使 用 地 址 掩 码 来 确定 数据 报 的 目的 地 址 是 否 位 于 直接 相连 的 网 络 中 。 

支持 : 在 配置 连通 某 个 网 络 (如 以 太 网 ) 的 接口 时 ， 同 时 也 配置 了 接口 的 地 址 掩 码 (或 根据 

IP 地 址 的 类 别 选 择 一 个 默认 的 地 址 掩 码 )， 保 存在 路 由 表 表 项 中 。rn_match 查 找 网 络 匹 

配 时 ， 会 用 到 已 配置 的 地 址 掩 码 。 

。 不 存在 路 由 器 (所 有 网 络 都 直接 相连 ) 时 ， 必 须 能 在 最 小 环境 中 运行 正常 ， 

支持 : 这 种 情况 下 ， 系 统管 理 员 不 允许 配置 默认 路 由 。 

。 必 须 在 缓存 中 保存 到 达 下 一 跳 路 由 器 的 路 由 。 

支持 : 路 由 表 位 于 缓存 中 。 

。“ 网 络 重 定向 ” 报 文 的 处 理 方式 应 该 等 同 于 “主机 重 定向 ” 报 文 。 

支持 : 详 见 19.7 节 。 

。 必 须 使 用 默认 路 由 器 ， 如 果 路 由 表 中 没有 到 达 目 的 地 址 的 路 由 记录 。 

支持 : 条 件 是 路 由 表 中 已 配置 有 默认 路 由 。 

。 必 须 支 持 多 个 默认 路 由 器 。 

内 核 不 支持 多 条 默认 路 由 。 完 成 选 路 的 后 台 进 程 可 能 支持 此 功能 。 

。 建 议 实现 静态 路 由 表 。 

支持 : 可 在 系统 初始 化 时 通过 route 命 令 实 现 。 

。 建 议 为 每 条 静态 路 由 指派 一 个 标志 ， 说 明 它 是 否 能 被 重 定向 报 文 修改 。 
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不 支持 。 

。 建议 采用 完整 的 主机 地 址 ， 而 不 是 网 络 地 址 作为 路 由 表 的 表 项 

支持 : 主机 路 由 比 到 达 同 一 网 络 的 网 络 路 由 具有 优先 权 。 

*。 应 该 在 路 由 表 表 项 中 包括 TOS 值 。 

不 支持 : 第 21 章 中 描述 的 sockaddr_inarp 结 构 中 定义 了 TOS 字 段 ， 但 目前 未 使 用 。 

* 必须 能 够 检测 路 由 表 中 出 现在 网 关 域 的 下 一 跳 路 由 器 的 故障 ， 并 能 选择 其 他 的 下 一 跳 路 
由 器 。 

消极 的 建议 。in_losing 生 成 的 RTM_LOSING 报 文 ， 将 被 上 交 给 从 选 路 插口 读 取 数据 
的 所 有 进程 ， 从 而 允许 应 用 进程 (如 ， 某 个 选 路 后 台 进 程 ) 处 理 该 事件 。 

e 不 应 该 假定 一 条 路 由 永远 正常 。 

支持 : 除了 ARP 生 成 的 表 项 外 ，Net/3 内 核 路 由 表 中 的 其 余 表 项 没有 超时 字段 。UNIX 系 
统 标 准 的 后 台 选 路 进程 负责 对 路 由 表 项 定时 ， 超 时 后 ， 在 可 能 的 情况 下 ， 选 择 另 一 条 路 
由 替代 已 超时 的 路 由 。 

* 必须 禁止 连续 ping(ICMP 回 应 请 求 ) 路 由 器 。 

支持 :Net/3 内 核 不 会 这 样 做。 后 台 选 路 进程 也 不 会 生成 ICMP 回 应 请 求 报 文 。 

。 只 有 在 需要 向 路 由 器 发 送 报 文 时 ， 才 人 允许 ping 路 由 器 。 

Net/3 内 核 绝 不 会 ping 下 一 跳 路 由 器 。 

。 应 该 实现 某 种 机 制 ， 人 允许 高 层 或 低层 向 路 由 模块 报告 正常 或 差错 。 

部 分 支持 : 其 他 层 向 Net/3 选 路 函数 传递 信息 的 唯一 方式 是 通过 in_losing， 而 
in_losing 只 被 TCP 调 用 。 选 路 层 采取 的 唯一 动作 是 生成 RTM_LOSING 报 文 段 。 

。 上 默认 路 由 器 出 现 故 障 时 ， 必 须 切 换 到 另 一 个 默认 路 由 器 上 。 

支持 : 尽管 Net/3 内 核 不 实现 此 功能 ， 但 得 到 后 台 选 路 进程 支持 。 

。 必须 能 够 手工 配置 路 由 表 中 的 下 述 信息 :IP 地 址 、 网 络 掩 码 和 上 默认 路 由 表 。 

支持 : 但 内 核 只 支持 一 条 默认 路 由 。 


C.9 ARP 的 需求 


本 节 总 结 了 RFC 1122 第 2.5 节 关于 ARP 功 能 的 需求 ， 以 及 Net/3 系 统 对 这 些 需 求 的 实现 程度 。 
。 必 须 提 供 某 种 机 制 ， 能 够 清除 过 时 的 ARP 记 录 。 如 果 利 用 超时 ， 时 限 应 是 可 配置 的 。 
支持 : arptimer 提 供 所 要 求 的 机 制 。 时 限 是 可 配置 的 (arp_prune 和 arp_keep 全 局 
变量 )， 但 改变 时 限 值 的 唯一 方式 是 重新 编译 内 核 ， 或 通过 调试 器 修改 内 核 。 

。 必须 提供 某 种 机 制 ， 防 止 ARP 淇 泛 

支持 : 详 见 图 21-24。 

。 应 该 保存 (而 非 丢 弃 ) 至 少 一 个 (最 后 一 个 )， 发 往 同一 个 未 解析 的 IP 地 址 的 数据 报 ， 并 且 
在 IP 地 址 解析 后 发 送 保存 的 数据 报 。 

支持 : 这 就 是 定义 11info_arp 结 构 中 1a_hold 成 员 变 量 的 目的 。 


C.10 UDP 的 需求 


本 节 总 结 了 RFC 1122 第 4.1.5 节 关于 UDP 功能 的 需求 ， 以 及 NeV3 系 统 对 这 些 需 求 的 实现 程 
度 。 
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。 应 该 发 送 ICMP “端口 不 可 达 ” 差 错 报 文 。 
支持 : udp_input 完 成 此 功能 。 

e 必须 向 应 用 程序 提交 接收 的 了 选项 。 

不 支持 : udp_input 中 实现 此 功能 的 代码 被 注释 掉 了 。 也 就 是 说 ， 即 使 应 用 进程 收 到 
的 UDP 报 文 段 中 带 有 源 选 路 选项 ， 也 无 法 采用 逆向 路 由 发 送 响应 。 

。 必须 允许 应 用 进程 指派 发 送 的 IP 选 项 。 
支持 : IP_OPTIONS 播 口 选项 实现 此 功能 。 指 派 的 选项 保存 在 PCB 中 ， 并 由 
ip_output 放 入 输出 的 IP 数 据 报 中 。 

。 必 须 能 向 下 向 了 P 层 传递 下 选项 。 
支持 : 前 面 已 提 到 ，IP 把 选项 放 入 IP 数 据 报 中 。 

* 必须 向 应 用 程序 提交 收 到 的 ICMP 报 文 。 
支持 : 我 们 必须 阅读 RFC 原文 : “基于 UDP 的 应 用 程序 ， 如 果 希 望 接收 TCMP 差 错 报 文 ， 
则 应 负责 维护 必需 的 状态 ， 从 而 在 报 文 段 到 达 时 能 够 正确 处 理 。 例 如 ， 应 用 程序 可 能 需 
要 为 此 保存 一 个 挂 起 的 接收 操作 。” 基 于 Berkeley 系 统 所 需 的 状态 ， 是 指 插口 已 连接 到 远 
端 地 址 和 播 口 上 。 如 同 图 23-26 起 始 处 的 注释 所 指出 的 ， 某 些 应 用 程序 为 指派 的 远 端 端 
口 间 时 创建 连接 插口 和 非 连接 插口 ， 利 用 连接 插口 接收 异步 差错 。 

。 必须 能 够 生成 并 验证 UDP 检 验 和 。 
支持 : udp_input 在 全 局 变量 udpcksum 的 基础 上 实现 此 功能 。 

* 必须 丢弃 恰 验 和 验证 失败 的 UDP 报 文 段 而 不 回 显 信 息 。 
支持 : 只 要 udpcksum 非 零 ，Net3 丢 弃 该 报 文 段 。 我 们 前 面 曾 提 到 ， 该 变量 同时 控制 发 
送 时 检验 和 的 产生 以 及 接收 检验 和 的 验证 。 如 果 它 等 于 0， 则 内 核对 收 到 的 非 零 检验 和 
不 做 验证 。 

。 建 议 允 许 发 送 程序 指定 是 否 需要 计算 输出 报 文 段 的 检验 和 ， 默 认 操作 必须 为 需要 计算 
不 支持 : 应 用 程序 不 能 控制 UDP 检验 和 。 默 认 情 况 下 ，Net/3 计 算 UDP 检 验 和 ， 除 非 内 
核 编 译 时 定义 了 4.2BSD 的 兼容 功能 ， 或 者 系统 管理 员 通 过 sysctl (8) 关 闭 了 UDP 检验 
和 功能 。 

。 建 议 人 允许 接 收 进程 指定 是 丢弃 收 到 的 不 带 检验 和 的 UDP 报 文 段 (例如 ， 收 到 的 检验 和 等 
于 0)， 还 是 将 此 类 报 文 段 提交 给 应 用 进程 。 

不 支持 : 即使 接收 报 文 段 的 检验 和 字段 等 于 0， 也 会 被 提交 给 应 用 进程 。 

。 必 须 向 应 用 进程 提交 目的 IP 地 址 。 
支持 : 应 用 程序 可 以 调用 recvmsg， 并 指派 1TP_RECVDSTADDR 插 口 选项 。 尽 管 在 图 23-25 
中 的 讨论 中 曾 指出 ， 如 果 目 的 地 址 是 广播 地 址 或 多 播 地 址 ，4.4BSD 不 遵守 此 规定 。 

。 必 须 允 许 应 用 进程 指派 发 送 UDP 报 文 段 时 所 使 用 的 本 地 IP 地 址 。 
支持 : 应 用 程序 调用 bpind， 为 UDP 插 口 指派 本 地 IP 地 址 。 在 第 22.8 节 结尾 处 ， 我 们 已 经 
讨论 了 源 IP 地 址 和 输出 接口 [PP 地址 间 的 差别 。Net/3 不 允许 应 用 程序 指派 输出 接口 
ip_output 负 责 根据 到 达 目 的 地 址 的 路 由 选取 本 地 输出 接口 。 

。 必 须 允 许 应 用 程序 指派 本 地 IP 地 址 的 通 配 地 址 。 
支持 : 如 果 bind 调 用 中 指派 的 IP 地 址 为 TPADDR_ANY，in_pcbconnect 将 根据 到 达 
目的 地 址 的 路 由 选取 本 地 卫 地 址 。 
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*。 应 该 允许 应 用 程序 了 解 选 定 的 本 地 IP 地 址 。 

支持 : 应 用 程序 必须 调用 connect 。 如 果 揪 口 未 建立 连接 ， 且 绑 定时 指派 的 是 本 地 通 
配 地 址 ， 在 该 插口 上 发 送 报 文 段 时 ，ip_output 选 择 输出 接口 ， 并 把 输出 接口 的 IP 地 
址 作为 源 地 址 。 但 在 sendto 返 回 前 ，udp_output 结 尾 处 的 代码 会 把 PCB 中 的 
inp_laddr 成 员 变 量 ， 重 置 为 通 配 地 址 。 因 此 ，getsockname 将 返回 空 值 。 但 应 用 程 
序 可 以 调用 connect， 把 UDP 插口 连接 到 指定 目的 地 ， 强 迫 in_pcbconnect 选 择 输 
出 接口 ， 并 把 接口 地 址 保存 到 PCB 中 。 应 用 程序 随后 调用 getsockname， 可 得 到 本 地 
接口 的 下 地 址 。 

。 必 须 丢 弃 收 到 的 源 地 址 差错 (广播 地 址 或 多 播 地 址 ) 的 UDP 报 文 段 而 不 回 显 信息 。 

不 支持 : 即使 收 到 的 UDP 报 文 段 源 地 址 差错 、 但 如 果 有 播 口 绑 定 在 指派 的 目的 端口 上 ， 
则 报 文 段 也 会 被 提交 给 该 播 只 。 

* 必须 发送 有 效 的 卫 源 址 。 

支持 : 如 果 通 过 binad 指 派 本 地 IP 地 址 ，bind 会 检查 地 址 的 有 效 性 。 如 果 指 派 了 本 地 通 
配 地 址 ，ip_output 选 择 本 地 地 址 。 

。 必 须 实现 RFC 1122 第 3.4 节 定义 的 完整 的 IP 接 口 。 

参见 C.2 节 

“必须 允许 应 用 进程 为 输出 报 文 段 指 派 TTL、TOS 和 IP 选 项 。 

支持 : 应 用 程序 可 使 用 IP_TTL、IP_TOS 和 IP_OPTIONS 插 口 选 项 。 

。 建 议 同 应 用 程序 提交 TOS。 

不 支持 : 应 用 程序 无 法 得 到 接收 报 文 段 IP 首 部 的 TOS 值 。 请 注意 ， 调 用 getsockopt， 
参数 为 TP_TOSs 时 得 到 的 返回 值 是 输出 报 文 段 ， 而 非 接收 报 文 段 的 TOS 值 。 接 收报 文 段 
的 TOS 对 udp_input 是 可 见 的 ， 但 后 者 在 处 理 过 程 中 ， 将 它 与 整个 IP 首 部 一 起 丢弃 。 


C.11 TCP 的 需求 
本 节 总 结 了 RFC 1122 第 4.2.5 节 关于 TCP 功 能 的 需求 ， 以 及 Net/3 系 统 对 这 些 需求 的 实现 程度 。 
PSH 标 志 


“建议 累积 用 户 发 送 的 不 带 PSH 标 志 的 数据 。 
部 分 支持 : Net/3 没 有 为 应 用 进程 提供 机 制 ， 能 够 在 调用 write 的 同时 指派 PSH 标 志 。 但 
Net/3 能 够 累积 用 户 在 多 次 write 操作 中 发 送 的 数据 。 
“建议 把 收 到 的 不 带 PSH 标 志 的 数据 放 入 队列 。 
不 支持 : 接收 报 文 段 中 是 否 带 有 PSH 标 志 不 会 影响 Net/3 的 处 理 。 接 收报 文 段 处 理 过程 中 ， 
收 到 的 数据 都 放 人 插口 的 接收 队列 。 
。 发 送 方 在 对 数据 打包 时 ， 应 该 合并 连续 的 PSH 标 志 。 
不 支持 。 
。 建议 在 write 调 用 中 指派 PSH 标 志 。 
不 支持 : 插 日 API 不 提供 此 项 功能 。 
。 由 于 PSH 标 志 不 是 write 调 用 的 一 部 分 ， 必 须 防止 无 限期 地 缓存 数据 ， 且 必须 在 最 后 一 
个 缓存 报 文 段 中 置 位 PSH 标 志 。 
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支持 : 基于 Berkeley 的 系统 都 采用 此 方法 。 

。 建 议 向 应 用 程序 提交 收 到 的 PSH 标 志 。 

不 支持 : 插口 API 不 提供 此 项 功能 。 

* 在 可 能 的 情况 下 ， 应 该 发 送 最 大 长 度 报 文 段 ， 以 提高 性 能 。 
支持 。 


窗口 


。 必须 把 窗 白 大 小 视 为 无 符号 整数 。 应 该 把 窗口 大 小 视 为 32 bit 数 值 。 
支持 : 图 24-13 中 的 所 有 窗口 大 小 的 数据 类 型 都 是 unsigned long. RFC 1323 关 于 窗 
口 大 小 选项 的 说 明 中 也 有 此 要 求 。 

。 不 允许 接收 方 缩小 窗口 。 

支持 : 详 见 图 26-29。 

。 发 送 方 必 须 非常 灵活 ， 在 对 端 缩小 窗口 时 也 能 正常 运作 。 

支持 : 详 见 图 29-15。 

。 建 议 无 限期 关闭 提供 的 接收 窗口 。 

支持 。 

- 发送 方 必须 能 够 探测 零 窗口 。 

支持 : 这 也 是 设置 持续 定时 器 的 目的 。 

。 在 窗口 因为 RTO 而 关闭 时 ， 应 该 发 送 第 一 次 零 窗口 探测 报 文 段 。 

不 支持 : Net/3 把 持续 定时 器 的 下 限 设 为 5 秒 ， 一 般 情 况 下 都 大 于 RTO。 
。 应 该 线性 递增 连续 探测 报 文 段 间 的 时 间 间 隔 。 

支持 : 详 见 图 25-14。 

， 必 须 允许 对 端 窗口 无 限期 地 关闭 。 

支持 : TCP 会 一 直 向 关闭 窗口 发 送 探测 报 文 段 。 

。 不 允许 由 于 接收 方 一 直 发 送 零 窗 口 通告 ， 发 送 方 就 超时 关闭 连接 。 
支持 。 


发 送 数据 


。 紧 急 指针 必须 指向 紧急 数据 的 最 后 一 个 字 节 。 

不 支持 : 基于 Berkeley 的 系统 都 将 紧急 指针 解释 为 指向 紧急 数据 结束 后 的 第 一 个 字 市 。 

。 必 须 支 持 任何 长 度 的 紧急 数据 。 

支持 : 条 件 是 修订 了 习题 26.6 中 讨论 的 差错 。 

“必须 通知 接收 进程 : (DTCP 收 到 紧急 指针 ， 并 且 没 有 正 等 待 处 理 的 紧急 数据 ; 或 者 (2) 
紧急 指针 出 现在 数据 流 之 前 。 

支持 : 详 见 图 29-17。 

“必须 允许 应 用 进程 以 某 种 方式 确定 剩余 的 紧急 数据 量 ， 或 者 至 少 能 确定 是 否 还 有 需要 读 
取 的 紧急 数据 。 

支持 : 这 就 是 设置 带 外 数据 标志 SIOCATMARK ioct1 的 目的 。 
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TCP 选 项 


* 必须 能 够 接收 任何 报 文 段 中 的 TCP 选 项 。 

支持 。 

* 必须 忽略 所 有 不 支持 的 选项 。 

支持 : 详 见 第 28.3 节 。 

* 必须 处 理 非法 的 选项 长 度 。 

支持 : 详 见 第 28.3 证 。 

* 必须 能 够 发 送 并 接收 MSS 选 项 。 

支持 : 图 28-10 中 的 代码 处 理 收 到 的 MSS 选 项 ， 图 26-23 中 的 代码 总 是 在 SYN 中 发 送 MSS 
选项 。 

“如 果 接 收 MSS 不 等 于 536， 则 应 该 在 响应 SYN 报 文 段 中 发 送 MSS 选 项 ; 建议 在 所 有 SYN 
报 文 段 中 发 送 MSS 选 项 。 

支持 : 前 面 已 提 到 ，NetW3 在 所 有 SYN 报 文 段 中 发 送 MSS 选 项 。 

* 如 果 收 到 的 SYN 报 文 段 中 未 携带 MSS 选 项 ， 必 须 假定 MSS 默 认 值 等 于 536。 

不 支持 :MSS 的 默认 值 等 于 512， 而 非 536。 


这 可 能 是 一 个 历史 遗留 问题 。、 因 为 VAX 系 统 物 理 存储 器 页 大 小 为 S12 字 节 ， 而 
trailer 协 议 只 能 处 理 长 度 为 512 倍 数 的 数据 。 
。 必 须 计算 “ 有 效 发 送 MSS”。 
支持 : 详 见 27.5 节 。 


TCP 检 验 和 


* 必须 在 输出 报 文 段 中 生成 了 TCP 检验 和 ， 必 须 验证 收 到 的 检验 和 。 
支持 : Net/3 支 持 TCP 检 验 和 的 生成 和 验证 。 


初始 序号 选择 


。 必 须 使 用 RFC 793 中 规定 的 时 钟 驱动 的 选择 机 制 。 
不 支持 : REC 793 中 规定 的 时 钟 ， 每 半 秒 递增 125 000， 而 Net/3 ISN( 全 局 变量 tcp_iss) 
每 半 秒 递增 64 000， 约 为 规定 速率 的 一 半 。 


打开 连接 


。 必 须 支持 同时 打开 。 
支持 : 尽管 基于 Berkeley 的 系统 ，4.4BSD 以 前 的 版 本 ， 不 支持 此 功能 。 第 28.9 节 中 讨 
论 了 这 个 问题 。 

。 必 须 能 区 分 是 从 LISTEN 状 态 ， 还 是 从 SYN_SENT 状 态 变迁 到 SYN_RCVD 状 态 。 
支持 : 结果 相同 ， 方 法 不 同 。 提 出 此 需求 的 目的 是 允许 被 动 打开 的 一 方 ， 在 收 到 RST 时 
能 返 何 到 LISTEN 状 态 (如 图 24-15 所 示 )， 而 主动 打开 的 一 方 ， 如 果 在 SYN_RCVD 状 态 时 
收 到 RST， 应 被 强迫 终止 。 如 图 28-36 所 示 。 

。 被 动 打开 必须 不 影响 系统 中 已 建立 的 连接 。 
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支持 。 

“必须 允许 绑 定 在 同一 本 地 端 有 上 的 监听 插口 和 另 一 播 口 同时 处 于 SYN_SENT 状态 或 
SYN_RCVD 状 态 。 

支持 : 提出 本 需求 的 目的 在 于 允许 应 用 进程 能 同时 接受 多 个 连接 请 求 。Berkeley 系统 采 
用 的 方法 是 ， 收 到 SYN 时 ， 系 统 根据 处 于 LISTEN 状 态 的 揪 口 创建 一 条 完全 相同 的 连接 。 
。 如 果 在 多 接口 主机 上 ， 执 行 主动 打开 的 应 用 进程 没有 指派 源 IP 地 址 ， 则 必须 要 求 IP 层 选 
择 一 个 本 地 IP 地 址 作为 源 IP 地 址 。 

支持 : 由 in_pcbconnect 实 现 。 

。 同 一 连接 上 发 送 的 所 有 报 文 段 必须 使 用 相同 的 源 IP 地 址 。 

支持 : 只 要 in_pcbconnect 选 定 了 源 卫 地 址 ， 就 不 会 再 改变 。 

。 执行 主 动 打开 时 ， 对 端 地 址 不 允许 是 广播 地 址 或 多 播 地 址 。 

部 分 支持 : TCP 不 会 向 广播 地 址 发 送 报 文 段 ， 因 为 图 26-32 中 调用 ip_output 时 ， 不 会 
指定 SO_BROADCAST 选 项 。 但 Net/3 允 许 应 用 程序 试图 与 多 播 地 址 建立 连接 。 

。 必 须 忽 略 收 到 无 效 源 地 址 的 SYN 报 文 段 。 

支持 : 图 28-16 中 的 代码 检查 无 效 源 地 址 。 


关闭 连接 


* 应 该 允许 RST 携 带 数 据 。 

不 支持 : 图 28-36 中 对 RST 的 处 理 ， 结 束 时 跳 转 到 drop， 上 略 过 了 图 29-22 中 对 报 文 段 数据 
的 所 有 处 理 。 

。 必 须 通 知 应 用 进程 对 端 是 正常 关闭 连接 (例如 ， 发 送 了 FIN)， 还 是 通过 RST 异 常 中 止 了 
连接 

支持 : 如 果 收 到 FIN，read 系 统 调用 返回 0( 文 件 结束 ); 如 果 收 到 RST，read 系 统 调 用 
返回 -1， 差 错 代码 为 ECONNRESET。 

e 建议 实现 半 关 闭 。 

支持 : 应 用 进程 调用 shutdown， 令 第 二 个 参数 等 于 1， 可 发 送 FIN。 此 后 ， 应 用 进程 仍 
能 从 连接 读 取 数据 。 

。 如 果 应 用 进程 完全 关闭 了 连接 (不 是 半 关 闭 )， 但 接收 数据 还 没有 被 读 取 ， 或 者 关闭 操作 
后 ， 又 有 新 的 数据 到 达 ， 则 TCP 应 该 发 送 RST， 说 明 有 数据 丢失 。 

部 分 支持 : 如 果 应 用 进程 调用 cl1ose， 且 没有 读 取 插口 接收 缓存 中 的 数据 ， 则 TCP 不 发 
送 RST。 但 如 果 播 口 被 关闭 后 ， 又 有 新 的 数据 到 达 ， 则 TCP 将 发 送 RST 报 文 段 。 

。 必 须 在 TIME_WAIT 状 态 等 待 2MSL。 

支持 : 尽管 Ney3 MSL 等 于 30 秒 ， 远 小 于 RFC 793 中 建议 的 2 分 钟 的 时 间 长 度 。 

* 如果 在 TIME_WAIT 状 态 收 到 对 端 新 发 送 的 SYN， 应 允许 直接 建立 新 连接 。 

支持 : 详 见 图 28-28。 


重 传 


。 必 须 实现 Van Jacobson 的 慢 起 动 和 拥塞 避免 算法 。 
XB. 
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。 如 果 重 传 报 文 段 与 原始 报 文 段 相同 ， 建 议 使 用 同一 个 IP 标 识 符 。 

不 支持 : ip_output 把 全 局 变量 ip_id 的 当前 值 填 和 IP 数据 报 的 ID 字 段 。 每 发 送 一 个 
IP 数 据 报 ，ip_id 加 1。TCP 不 负责 IP 标 识 符 的 赋值 。 

。 必 须 实现 Jacobson 的 RTO 算 革 和 选取 的 RTT 测 量 值 Karn 算 法 。 

支持 : 请 注意 ， 如 果 采 用 RFC 1323 定义 的 时 间 蕉 选项 ， 重 传 报 文 段 二 义 性 将 不 再 存在 ， 
Karn 算 法 的 一 半 问 题 也 解决 了 。 在 图 29-6 中 我 们 已 讨论 过 这 个 问题 。 

。 对 于 连续 的 RTO 值 ， 必 须 有 指数 退 避 机 制 。 

支持 : 详 见 图 25-22 。 

。SYN 报 文 段 的 重 传 算法 应 该 与 数据 报 文 段 的 重 传 算法 相同 。 

支持 : 详 见 图 25-16。 

* 应 该 初始 化 往返 时 间 估 值 参 数 ， 保 证 计算 得 到 的 RTO 的 初始 值 为 3 秒 。 

不 支持 : tcp_newtcpcb 计 算得 到 的 t_rxtcur 初 始 值 等 于 6 秒 。 详 见 图 25-16。 

。RTO 的 下 限 应 为 几 分 之 一 秒 ， 上 限 应 等 于 2MSL。 

不 支持 : RTO 的 下 限 设 为 1 秒 ， 上 限 等 于 64 秒 (图 25-3)。 


生成 ACK 


。 应 该 把 乱 序 报 文 段 放 入 重组 队列 。 

支持 : tcp_reass 实 现 此 功能 。 

。 发 送 ACK 之 前 ， 必 须 先 处 理 队 列 中 的 所 有 报 文 段 。 

支持 : 但 只 适用 于 顺序 到 达 的 报 文 段 。ipintr 处 理 卫 接收 队列 中 的 数据 报 ， 如 果 携 带 
的 是 TCP 报 文 段 ， 则 调用 ccp_input。 对 于 顺序 到 达 的 报 文人 月 ，Ecp_input 设 定 延 迟 
ACK 标 志 ， 控 制 返回 ijpintr。 如 果 IP 输 入 队列 中 还 有 其 他 携带 TCP 报 文 段 的 数据 报 ， 
ipintr 依 次 调用 tcp_input。 只 有 IP 输 入 队列 中 的 数据 报 全 部 处 理 完 毕 后 ， 才 能 调用 
tcp_fasttimo 生 成 延迟 ACK，、 确 认 tcp_input 处 理 过 的 全 部 报 文 段 中 最 高 的 数据 字 
节 序 号 。 

处 理 乱 序 报 文 段 遇 到 的 问题 是 : 把 控制 返回 给 ijpintr 之 前 ，tcp_input 会 直接 调用 
tcp_output， 生 成 对 乱 序 报 文 段 的 确认 。 如 果 此 时 IP 输 入 队列 中 还 有 剩余 报 文 段 ， 它 
们 与 当前 处 理 的 乱 序 报 文 段 合 在 一 起 完全 有 可 能 组 成 一 个 顺序 数据 序列 ， 但 它们 只 能 等 
到 立即 ACK 发 送 完毕 后 才 会 被 处 理 。 

*。 建 议 立 即 发 送 乱 序 报 文 段 的 ACK。 

支持 : 这 也 是 快速 重 传 和 快速 恢复 算法 的 要 求 (第 29.4 节 )。 

。 应 该 实现 延迟 ACK， 且 延迟 时 间 应 小 于 0.5 秒 。 

支持 : tcp_fasttimo 每 隔 200 ms， 检 查 一 次 TF_DELACK 标 志 。 

* 每 隔 一 个 报 文 段 ， 至 少 应 该 发 送 一 次 ACK。 

支 桂 : 图 26-9 中 的 代码 每 隔 一 个 报 文 段 生成 一 个 ACK。 我 们 也 讨论 过 ， 只 有 当 接 收 数据 
的 应 用 进程 在 数据 到 达 时 立即 读 了 到 ， 才 会 出 现 这 种 处 理 过 程 。 因 为 只 有 在 PRU_RCVD 的 
处 理 代 码 中 ， 才 会 调用 cp_output， 每 隔 一 个 报 文 段 发 送 一 次 ACK。 

。 接 收 方 必须 实现 糊涂 窗口 综合 症 避 免 算法 。 

支持 : 详 见 图 26-29。 
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发 送 数据 


*“TCP 报 文 段 中 的 TTL 值 必须 是 可 配置 的 。 
支持 : tcp_newtcpcb 初 始 化 TTL 为 64(IPDEFTTL)， 但 应 用 进程 可 通过 IP_TTL 桥 口 选 
项 修改 该 值 。 
"发 送 方 必须 实现 糊涂 窗口 综合 症 避 免 算 法 。 
支持 : 详 见 图 26-8。 
* 应 该 实现 Nagle 算 法 。 
支持 : 详 见 图 26-8。 
。 必 须 允 许 应 用 进程 对 于 指定 连接 禁止 Nagle 算 法 。 
支持 : 通过 TCP_NODELAY 插 口 选 项 。 


连接 失败 


。 如 果 某 报 文 段 的 重 传 次 数 超 过 指定 的 门限 R1， 必 须 向 耳 层 告警 。 

支持 : 图 25-26 中 ，RI 等 于 4。 如 果 重 传 次 数 超过 4， 则 调用 in_losing。 
。 如 果 某 报 文 段 的 重 传 次 数 超过 R2， 必 须 关 闭 连接 。 

支持 : R2 等 于 12( 图 25-26)。 

* 必须 允 许 应 用 进程 配置 2 的 值 。 

不 支持 : 在 图 25-26 中 ，R2 的 值 是 定 死 的 。 

。 如 果 重 传 次 数 超过 R1， 而 小 于 R2， 应 该 通知 应 用 进程 。 

不 支持 。 

。R1 的 默认 值 最 小 应 该 为 3 次 ，R2 最 小 应 该 为 100 秒 。 

支持 : R1 等 于 4， 最 小 RTO 等 于 1 秒 。tcb_backoff 数 组 (第 25.9 节 ) 确 保 R2 的 最 小 值 大 
于 500 秒 。 

。SYN 报 文 段 重 传 的 处 理 方式 必须 与 数据 报 文 段 重 传 的 处 理 方式 相同 。 
支持 : 但 一 般 情况 下 ，SYN 重 传 次 数 不 会 超过 R1( 图 25-16)。 

。 对 于 SYN 报 文 段 ，R2 的 最 小 值 必须 设 为 3 分 钟 。 

不 支持 : 连接 建立 定时 器 把 SYN 的 R2 限 定 为 75 秒 (图 25-16)。 


连接 探测 报 文 段 


。 建 议 实 现 连接 探测 报 文 段 。 

支持 : Net/3 提 供 此 功能 。 

。 必 须 允 许 应 用 进程 打开 或 关闭 保 活 功能 ， 默 认 值 为 关闭 。 

支持 : 默认 值 为 关闭 。 应 用 进程 必须 通过 SO_KEEPALIVE 插 口 选项 打开 此 功能 。 

。 只 有 当 连 接 空 闪 时 间 超 过 限制 时 ， 才 允许 发 送 连 接 探测 报 文 段 。 

支持 。 

。 必 须 允 许配 置 保 活 的 时 间 间 隔 ， 默 认 值 必 须 大 于 2 小 时 Vv。 

部 分 支持 : 发 送 连接 探测 报 文 段 前 的 时 间 间 隔 很 难 配置 ， 但 默认 值 等 于 2 小 时 。 如 果 默 
认 的 空间 时 间 间 隔 被 更 改 (修改 全 局 变量 tcp_keepidle)， 它 会 影响 主机 上 设置 了 保 活 


HRC RFC 1122 的 有 关内 容 893 


选项 的 所 有 用 户 一 一 无 法 如 许多 用 户 所 希望 的 ， 为 每 条 连接 单独 进行 配置 。 
“即使 对 端 未 响应 特定 探测 报 文 段 ， 不 允许 立即 认为 连接 已 中 断 。 
支持 : 在 确认 连接 中 断 之 前 ，Net3 系 统 会 发 送 9 个 探测 报 文 段 。 


IP 选 项 


* 必须 忽略 接收 报 文 段 中 不 支持 的 IP 选 项 。 
支持 : IP 层 实现 此 功能 。 

。 建议 支持 接收 报 文 段 中 的 时 间 规 选项 和 记录 路 由 选项 。 

不 支持 : Net/3 只 响应 ICMP 报 文中 的 这 些 选 项 ， 把 这 些 选 项 反 转 给 发 送 方 
(icmp_reflect)。tcp_input 调 用 ip_stripoptions， 技 弃 所 有 收 到 的 卫 选 项 ， 
如 图 28-2 所 示 。 

。 主动 打开 连接 时 ， 应 用 进程 必须 能 够 指派 源 路 由 ， 而 且 该 路 由 应 该 优先 于 在 该 连接 上 收 
到 的 源 路 由 。 
支持 : 应 用 进程 可 通过 IP_OPTIONS 揪 口 选项 ， 指 派 源 路 由 。 如 果 连 接 是 主动 打开 的 ， 
tcp_input 不 会 查看 接收 报 文 段 中 的 源 路 由 。 

。 如 果 连 接 是 被 动 打开 ， 且 发 送 报 文 段 时 ， 必 须 使 用 收 到 的 源 路 由 的 逆转 路 由 ， 则 必须 保 
在 连接 上 收 到 的 源 路 由 。 如 果 后 续 报 文 段 中 携带 的 源 路 由 与 当前 保存 的 路 由 不 同 ， 新 路 
由 将 取代 原 有 路 由 。 | 
部 分 支持 : 只 有 在 监听 插口 上 收 到 SYN 时 ， 图 28-7 中 的 代码 才 会 调用 ip_srcroute。 
如 果 后 续 报 文 段 携带 了 新 路 由 ， 则 被 忽略 。 


接收 !P 层 提交 的 ICMP 报 文 


* 收 到 ICMP 源 站 抑制 报 文 段 后 ， 应 该 执行 慢 起 动 。 

Xf tcp ctlinputiB)Htcp. quenchiR X. 

。 收 到 ICMP 网 络 不 可 达 、 主 机 不 可 达 或 源 路 由 失败 的 报 文 段 后 ， 必 须 禁止 TCP 终 止 连接 ， 
并 应 该 通知 应 用 进程 。 

部 分 支持 : 如 图 27-12 所 示 ，Net/3 完 全 忽略 已 建立 连接 上 收 到 的 网 络 不 可 达 和 主机 不 可 
达 报 文 段 。 

*。 收 到 ICMP 协 议 不 可 达 、 端 口 不 可 达 和 需要 分 片 但 DEF 置 位 的 报 文 段 后 ， 应 该 中 断 当前 连 
接 。 

不 支持 : tcp_notify 只 在 t_softerror 中 记录 这 些 ICMP 差 错 。 如 果 连 接 最 终 被 丢 
弃 ， 则 向 应 用 进程 报告 。 

。 收 到 处 理 数 据 报 超时 和 数据 报 参 数 错 的 报 文 段 后 ， 应 该 采用 与 前 述 网 络 不 可 达 和 主机 不 
可 达 报 文 段 同样 的 处 理 方式 。 

支持 : tcp_notify 只 在 t_softerror 中 记录 ICMP 数 据 报 参 数 错 。tcp_ctlinput 
忽略 ICMP 数 据 报 超时 报 文 鼎 。 两 种 报 文 段 都 不 会 导致 连接 被 丢弃 。 


应 用 程序 编程 接口 
“必须 提供 某 种 方式 ， 疝 应 用 进程 报告 软 差错 ， 一 般 应 通过 异步 方式 。 


894 TCP/IP ¥#¥® 42: 实现 


不 支持 : 连接 被 丢弃 时 ， 通 过 返回 值 向 应 用 进程 报告 软 差错 。 

。 必 须 人 允许 应 用 进程 为 连接 上 发 送 的 报 文 段 指派 TOS。 应 该 允许 应 用 进程 在 连接 的 生存 期 
内 ， 动 态 更改 TOS 。 

支持 : 应 用 程序 通过 IP_TOS 选 项 可 完成 上 述 功能 。 

。 建 议 向 应 用 进程 提交 最 近 收 到 的 TOS 值 。 

不 支持 : 插口 API 不 提供 此 项 功能 。 调 用 getsockopt， 参 数 为 TP_TOS， 只 能 返回 用 
于 发 送 的 TOS 当 前 值 。 它 无 法 返回 最 近 收 到 的 TOS 值 。 

。 建 议 实现 “fiush” 调用 。 

不 支持 : TCP 尽 可 能 快 地 发 送 应 用 进程 数据 。 

。 必 须 允 许 应 用 进程 在 主动 打开 或 被 动 打开 之 前 ， 指 派 本 地 IP 地 址 。 

支持 : 应 用 进程 可 在 调用 connect 或 accept 之 前 ， 调 用 bind。 
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《数据 通信 与 网 络 》 

《离散 数学 及 其 应 用 (第 4 版 )》 
《计算 机 组 织 与 设计 
《计算 机 体系 结构 :量化 研究 方法 (第 2 版 )》 
《并 行 计算 机 系统 结构 (第 2 版 )》 

《人 工 智能 》 

《计算 机 网 络 ( 第 2 版 )》 
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Eckel 著 / 京 京 工 作 室 译 /60.00 元 
Kernighan 著 / 陈 向 群 等 译 /24.00 元 
Tanenbaum 著 / 陈 向 群 等 译 /40.00 元 

Pratt 著 / Ek 2A 等 译 /20.00 元 

Palmer 著 / 严 伟 译 /20.00 元 

Pressman 著 / 黄 柏 素 、 梅 宏 译 /48.00 元 
Schach 著 / 袁 净 山 等 译 /38.00 元 

Shay 著 /高 传 善 等 译 /40.00 元 

Silberschatz 著 / 杨 冬青 、 唐 世 渭 等 译 /49.00 元 
Sahni 著 / 汪 诗 林 译 ， 王 广 芳 审 校 /49.00 元 
Eckel 著 / 刘 宗 田 等 译 ， 袁 兆 山 等 校 39.00 元 
Mandel 著 / 尤 晓 东 等 译 /38.00 元 
Stair 著 / 张 请 等 译 /42.00 元 
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Schneier 著 / 吴 世上 忠 等 译 /49.00 元 
Stevens 著 / 尤 晋 元 等 译 /55.00 元 
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Hwang 著 / 陆 傅 达 等 译 /49.00 元 

Forouzan 4/46 33, KITA 审 校 /48.00 元 
Sipser 著 / 张 立 昂 等 译 /30.00 元 

Yarbrough 著 / 朱 海滨 等 译 /49.00 元 

Louden 3/25 HP 3. 等 译 /39.00 元 
Stevens 著 / 范 建华 等 译 ， 谢 希 仁 校 /78.00 元 


Silberschatz 著 /65.00 元 
Pressman 著 /68.00 元 

Schach 著 /51.00 元 

Hwang 著 /59.00 元 

Sahni 著 /66.00 元 

Walrand 著 /32.00 元 

Hwang 著 /69.00 元 

Forouzan 著 /59.00 元 

Rosen 著 /S9.00 元 

Patterson, Hennessy 著 /80.00 元 
Hennessy, Patterson 著 /88.00 元 
Culler 著 /88.00 元 

Nilsson 著 /45.00 元 

Peterson 著 /65.00 元 

Walrand 著 /64.00 元 

Satzinger 著 /60.00 元 


函数 和 宏 定义 





accept 
addlgrp 
add mrt 
add vif 
arpintr 
arplookup 
arprequest 
arpresolve 
arp rtrequest 
arpLfree 
arptimer 
arpwhohas 


bind 
bpfattach 
bpf attachd 
bpflocti 
bpfopen 
bpfread 

bpf setif 
bpf tap 
bpfwrite 


catchpacket 
connect 


del lgrp 
del mrL 
del vif 
domaininit 
dtom 


ether addmulti 

ether delmulti 

ether ifaLtach 

ether input 

ETHER, LOOKUP. MULTI 
ETHER MAP IP, MULTICAST 
ether output 


fcntl 


getpeername 
getsock 
getsockname 
geLsockopt 
grplst member 


icmp error 

icmp input 

icmp reflect 

icmp send 

icmp. sYSCL1 

ifa ifwithaddr 
ifa ifwithaf 

ifa ifwithdstaddr 


366 
328 
336 
324 
551 
563 
549 
559 
565 
558 
557 
548 


363 
824 
831 
828 
827 
835 
830 
832 
837 


833 
373 


330 
335 
326 
153 

36 


289 
294 
71 
82 
273 
271 
84 


441 


446 
362 
445 
437 
330 


258 
247 
262 
265 
266 
145 
145 
145 


ifa ifwiLhnet 
ifa ifwithroute 
ifaof ifpforaddr 
if attach 
ifconf 

IF, DEQUEUE 

if down 

IF. DROP 

IF ENQUEUE 
ifinit 

ifioctl 

IF. PREPEND 

if gflush 

IF. QFULL 

if slowtimo 
ifunit 

if up 

igmp fasttimo 
igmp input 
igmp, joingroup 
igmp leavegroup 
IGMP RANDOM DELAY 
igmp sendreport 
in addmulti 

in, ar pinput 

in broadcast 
in, canforward 
in _cksum 
in_control 
in_delmulLi 

IN FIRST MULTI 
in ifinit 

in localaddr 
IN, LOOKUP. MULT'T 
in losing 

in, netof 

IN, NEXT, MULTI 
in pcballoc 

in pcbbind 

in pcbconnect 
in pcbdetach 

in pcbdisconnect 
in, pcblookup ^ 
in pcbnotify 

in rtchange 

in setpeeraddr 
in SeLsockaddr 
insque 

ip ctloutput 
ip.deq 

ip. dooptions 
ip. draln 

ip enq 

lp forwaifd 

ip. freef 
ip.getmoptions 


145 
145 
145 
68 
93 
56 
97 
56 
56 
72 
91 
56 
56 
56 
73 
145 
97 
309 
312 
307 
314 
307 
310 
285 
553 
144 
144 
187 
131 
293 
308 
134 
144 
275 
601 
144 
308 
576 
585 
590 
576 
594 
582 
597 
598 
595 
595 
231 
191 
231 
199 
238 
231 
175 
237 
296 


ip init 

ip insertoptions 
ipintr 

ip. nforward 

ip mloopback 

ip mrouter. cmd 
ip mrouter, done 
ip.mrouter init 
ip. optcopy 

ip output 

ip pcbopts 

ip. reass 

ip rtaddr 

ip. setmoptions 
ip slowtimo 

ip srcroute 

ip sysctl 
iptime 


eattach 
eioctl 
leread 
lstart 
listen 
loioctl 
loopattach 
looutput 





m adj 

main 

m cat 
MCLGET 

m copy 

m copyback 
m copydata 
m copym 

m devget 
MFREE 

m free 

m freem 

m get 

MGET 

m, getclr 
MGETHDR 

m geLhdr 
MH, ALIGN 

M LEADINGSPACE 
M PREPEND 
m pullup 

m retry 
mrtfind 
mtod 


nethash 
net sysctl 


32 


612 


337 
36 


335 
160 


pfctlinput 
pffasttimo 
pffindproLo 
pffindtype 
pfslowtimo 
phyint, send 


raw attach 
raw detach 
raw disconnect 
raw init 

raw input 

raw usrreq 
recvit 
recvmsg 
remque 

rip. CLlout pul 
rip init 

rip, input 
rip. output 
rip usrreq 

rn init 

rn, maLch 

rn search 
route init 
rouLe ouLpuL 
rouLe usrreq 
rtable iniL 
rtalloc 
rtalloci 
RTFREE 

rtfree 

rt ifmsg 
rtinit 

rt missmsg 

rt imsgl 

rt msg2 

rt newaddrmsg 
rtredirect 
rtrequesL 

rt setgate 

rt setmetrics 
rl, xaddrs 


save rte 
sballoc 
sbappend 
sbappendaddr 
Soappendcontrol 
sbappendrecord 
sbcompress 
sbdrop 
sbdroprecord 
sbfiush 

sbfree 
sbinsertoob 


157 
155 
156 
156 
155 
343 


539 
540 
540 
520 
532 
536 
404 
403 
231 
850 
842 
842 
845 
846 
468 
474 
480 
468 
521 
534 
468 
482 
483 
485 
485 
503 
493 
501 
506 
509 
504 
496 
487 
492 
531 
531 


205 
383 
383 
384 
384 
383 
384 
384 
384 
384 
384 
384 


函数 和 宏 定义 


Sblock 
Sbrelease 
sbreserve 
sbspace 
sbunlock 
sbwait 

select 
selrecord 
selscan 
selwakeup 
sendit 

sendmsg 
SEQ_GEQ 

SEQ GT 

SEQ LEQ 

SEQ LT 
setsockopt 
shutdown 
slattach 
slclose 

sliniL 

slinpuL 
slioctl 

slopen 
sloutput 
slstart 
sltloctl 
soaccept 
sobind 
Socantrcvmore 
Socantsendmore 
Sockargs 
Socket 

soclose 
soconnect 
Socreate 
sofree 
sogetopt 
soisconnectecl 
soisconnecting 
soisdisconnected 
Ssoisdisconnecting 
solisten 
Sonewconn 

Soo close 

Soo, ioctl 

Soo, select 
soqinsque 
soqremque 
soreadable 
Soreceive 
soreserve 
sorflush 
Sorwakeup 
sosend 
sosendallatonce 





sosetopt 
soshutdown 
Sowakeup 
sowriteable 
Sowwakeup 
Sysctl, dumpentry 
Sysctl iflist 
Sysctl rtable 


tcp. attach 

tcp canceltimers 
tcp close 

tcp ctlinput 
tcp ctloutput 
tcp. disconnect 
tcp, dooptions 
tcp. drop 

tcp fasttimo 
tcp init. 

tcp. input 

tcp mss 

tcp. newtcpcb 
tcp notify 

tcp output 

tcp pulloutofband 
tcp. quench 

tcp rcvseqinit 
TCP. REASS 

tcp reass 

tcp respond 
tcp sendseqinit 
tcp setpersist 
tcp slowtimo 
tcp template 
tcp  timers 

tcp trace 

TCPT RANGESET 
tcp. usrclosed 
tcp usrreq 

tcp xmit timer 
tunnel send 


udp, ctlinput 
udp detach 
udp init 

udp input 
udp notify 
udp, output 
udp. saveopt 
udp. sysctl 
udp  usrreq 


443 
376 
383 
426 
383 
515 
516 
512 


815 
657 
715 
723 
818 
816 
745 
713 
657 
651 
739 
717 
667 
723 
681 
788 
724 
756 
726 
728 
709 
756 
668 
658 
707 
660 
733 
656 
817 
805 
670 
343 


627 
630 
609 
617 
628 
611 
626 
633 
628 


